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第 2 版 序言 


《统计 学 习 方 法 》 第 1 版 于 2012 年 出 版 , 讲述 了 统计 机 器 学 习 方 法 , 主要 是 一 些 
习 方法 。 第 2 版 增加 了 一 些 常 用 的 无 监督 学 习 方 法 ,由 此 本 书 涵 盖 了 传 


常用 的 监督 学 
统统 计 机 器 学 


习 方法 的 主要 内 容 。 


在 撰写 《统计 学 习 方 法 》 伊 始 , 对 全 书 内 容 做 了 初步 规划 。 第 1 版 出 版 之 后 , 即 着 
方法 的 写作 。 由 于 写作 是 在 业余 时 间 进 行 , 常常 被 主要 工作 打 断 , 历经 
六 年 多 时 间 才 使 这 部 分 工作 得 以 完成 。 犹 未 能 加 入 深度 学 习 和 强化 学 习 等 重要 内 容 ， 


手 无 监 督学 习 


希望 今后 能 够 


增补 , 完成 整 本 书 的 写作 计划 。 


《统计 学 习 方 法 》 第 1 版 的 出 版 正 值 大 数据 和 人 工 智 能 的 热潮 ， 生 逢 其 时 ， 截 至 
2019 年 4 月 本 书 共 印 刷 25 次 , 152000 册 , 得 到 了 广大 读者 的 欢迎 和 支持 。 有 许多 读 
者 指出 本 书 对 学 习 和 掌握 机 器 学 习 技术 有 极 大 的 帮助 , 也 有 许多 读者 通过 电子 邮件 、 
出 书 中 的 错误 , 提出 改进 的 建议 和 意见 。 一 些 高 校 将 本 书 作 为 机 器 学 习 
参考 书 。 有 的 同学 在 网 上 发 表 了 读书 笔记 ,有 的 同学 将 本 书 介绍 的 方法 
在 计算 机 上 实现 。 清 华 大 学 深圳 研究 生 院 圳 春 老师 精心 制作 了 第 1 版 十 二 章 的 课件 ， 


微 博 等 方式 指 
课程 的 教材 或 


感动 和 鼓舞 。 在 这 里 向 所 有 的 老师 、 同学 、 读 者 致 以 诚 执 的 谢意 ! 


能 为 中 国 
同时 也 感受 到 


教学 相 长 的 道 
识 进 行 了 深入 
本 书 是 一 


的 基础 知识 。 书 中 


些 方法 的 理论 


在 网 上 公布 , 为 大 家 提供 教学 之 便 ,。 众多 老师 、 同学、 读者 的 支持 和 鼓励 ， 让 作者 深 受 


的 计算 机 科学 、 人 工 智能 领域 做 出 一 点 微薄 的 贡献 ,感到 


TR HOC, 


作为 知识 传播 者 的 重大 责任 , 让 作者 决意 把 本 书写 好 。 也 希望 大 家 今后 
BBB, 多 提 宝 贵 意见 ， 以 帮助 继续 提高 本 书 的 质量 。 在 写作 中 作者 也 深切 体会 到 


的 学 习 , Seat HER» 


理 ， 经 常 发 现 自己 对 基础 知识 的 掌握 不 够 扎实 ,通过 写作 得 以 对 相关 知 


部 机 器 学 习 的 基本 读物 , 要 求 读者 拥有 高 等 数学 、 线 性 代数 和 概率 统计 
FP 主 要 讲述 统计 机 器 学 习 的 方法 , 力求 系统 全 面 又 简明 扼要 地 冰 述 这 
、 算 法 和 应 用 , 使 读者 能 对 这 些 机 器 学 习 的 基本 技术 有 很 好 的 掌握 。 针 


对 每 个 方法 , 详细 介绍 其 基本 原理 、 基 础 理论 、 实 际 算法 , 给 出 细致 的 数学 推导 和 具 


体 实例 , 既 帮 


功 读 者 理解 ,也 便于 日 后 复习 。 
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第 2 版 增加 的 无 监督 学 习 方 法 , 王 泉 、 陈 嘉 怡 、 柴 琛 林 、 赵 程 绮 等 帮助 做 了 认真 细 
致 的 校 阅 , 提出 了 许多 宝贵 意见 , 在 此 谨 对 他 们 表示 衷心 的 感谢 。 清华 大 学 出 版 社 的 
薛 慧 编辑 一 直 对 本 书 的 写作 给 予 非 常 专业 的 指导 和 帮助 , 在 此 对 她 表示 衷心 的 感谢 ! 
于 本 人 水 平 有 限 ， 本 书 一 定 存 在 不 少 错误 ， 奶 请 各 位 专家 、 老 师 和 同学 批评 


指正 。 


李 航 
2019 年 4 月 


第 1 版 序言 


计算 机 与 网 络 已 经 融入 人 们 的 日 常 学 习 、 工作 和 生活 之 中 , 成 为 人 们 不 可 或 缺 的 
助手 和 伙伴 。 计算 机 与 网 络 的 飞速 发 展 完全 改变 了 人 们 的 学 习 、 工 作 和 生活 方式 。 智 
能 化 是 计算 机 研究 与 开发 的 一 个 主要 目标 。 近 几 十 年 来 的 实践 表明 , 统计 机 器 学 习 方 
法 是 实现 这 一 目标 的 最 有 效 手段 , 尽管 它 还 存在 着 一 定 的 局 限 性 。 

本 人 一 直 从 事 利 用 统计 学 习 方 法 对 文本 数据 进行 各 种 智能 性 处 理 的 研究 , 包括 自 
然 语 言 处 理 、 信息 检 索 、 文本 数据 挖 气 。 近 20 年 来 , 这 些 领 域 发 展 之 快 , 应 用 之 广 ， 
实在 令 人 惊叹 ! 可 以 说 , 统计 机 器 学 习 是 这 些 领 域 的 核心 技术 , 在 这 些 领域 的 发 展 及 
应 用 中 起 着 决定 性 的 作用 。 


本 人 在 日 常 的 研究 工作 中 经 常 指导 学 生 , 并 在 国内 外 一 些 大 学 及 讲习 班 上 多 次 做 
过 关于 统计 学 习 的 报告 和 演讲 。 在 这 一 过 程 中 , 同学 们 学 习 热 情 很 高 , 希望 得 到 指导 ， 
这 合作 者 产生 了 撰写 本 书 的 想法 。 
内 外 已 出 版 了 多 本 关于 统计 机 器 学 习 的 书籍 ， 比 如 ，Hastie 等 人 的 《统计 学 习 
基础 》 该 书 对 统计 学 习 的 诸多 问题 有 非常 精辟 的 论述 , 但 对 初学 者 来 说 显得 有 些 深 
奥 。 统 计 学 习 范 围 甚 广 , 一 两 本 书 很 难 履 盖 所 有 问题 。 本 书 主要 是 面向 将 统计 学 习 方 
法 作为 工具 的 科研 人 员 与 学 生 , 特别 是 从 事 信息 检 索 、 自 然 语言 处 理 、 文 本 数据 挖 气 
及 相关 领域 的 研究 与 开发 的 科研 人 员 与 学 生 。 

本 书 力求 系统 而 详细 地 介绍 统计 学 习 的 方法 。 在 内 容 选 取 上 , 侧重 介绍 那些 最 重 
要 、 最 常用 的 方法 , 特别 是 关于 分 类 与 标注 问题 的 方法 。 对 其 他 问题 及 方法 ， 如 聚 类 
等 , 计划 在 今后 的 写作 中 再 加 以 介绍 。 在 叙述 方式 上 , 每 一 章 讲述 一 种 方法 , 各 章 内 容 
相对 独立 、 完整; 同时 力图 用 统一 框架 来 论述 所 有 方法 ,使 全 书 整体 不 失 系统 性 ， 读 
者 可 以 从 头 到 尾 通读 ,也 可 以 选择 单个 章节 细 读 。 对 每 一 种 方法 的 讲述 力求 深入 浅 出 ， 
给 出 必要 的 推导 证 明 , 提供 简单 的 实例 , 使 初学 者 易于 掌握 该 方法 的 基本 内 容 , 领会 
方法 的 本 质 , 并 准确 地 使 用 方法 。 对 相关 的 深层 理论 , 则 予以 简 述 。 在 每 章 后 面 , 给 出 
一 些 习 题 , 介绍 一 些 相 关 的 研究 动向 和 阅读 材料 , 列 出 参考 文献 ， 以 满足 读者 进一步 
学 习 的 需求 。 本 书 第 1 章 简要 叙述 统计 学 习 方 法 的 基本 概念 ,最 后 一 章 对 统计 学 习 方 


F 
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法 进行 比较 与 总 结 。 此 外 , 在 附录 中 简要 介绍 一 些 共用 的 最 优化 理论 与 方法 。 

本 书 可 以 作为 统计 机 器 学 习 及 相关 课程 的 教学 参考 书 , 适用 于 信息 检索 及 自然 语 
言 处 理 等 专业 的 大 学 生 、 研究 生 。 

本 书 初稿 完成 后 , 田 飞 、 王 佳 硕 、 武威、 陈 凯 、 伍 浩 争 、 曹 正 、 陶 宇 等 人 分 别 审 阅 
了 全 部 或 部 分 章节 , 提出 了 许多 宝贵 意见 , 对 本 书 质量 的 提高 有 很 大 帮助 ,在 此 向 他 
们 表示 衷心 的 感谢 。 在 本 书写 作 和 出 版 过 程 中 , 清华 大 学 出 版 社 的 责任 编辑 薛 慧 给 予 
了 很 多 帮助 , 在 此 特 向 她 致谢 。 
由 于 本 人 水 平 所 限 , 书 中 难免 有 错误 和 不 当 之 处 , 欢迎 各 位 专家 和 读者 给 予 批评 
指正 。 


李 航 
2011 年 4 月 23 日 
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第 1 篇 监督 学 习 


第 1 章 “统计 学 习 及 监督 学 习 概论 


本 书 第 1 篇 讲述 监督 学 习 方法 。 监督 学 习 是 从 标注 数据 中 学 习 模 型 的 机 器 学 习 问 
题 , 是 统计 学 习 或 机 器 学 习 的 重要 组 成 部 分 。 

本 章 简要 叙述 统计 学 习 及 监督 学 习 的 一 些 基 本 概念 。 使 读者 对 统计 学 习 及 监督 学 
习 有 初步 了 解 。 

本 章 1.1 节令 述 统计 学 习 或 机 器 学 习 的 定义 、 研 究 对 象 与 方法 ; 1.2 WRIST 
学 习 的 分 类 , 基本 分 类 是 监督 学 习 、 无 监督 学 习 、 强 化 学 习 ; 1.3 节 和 叙述 统 计 学 习 方法 
的 三 要 素 : 模型 、 策 略 和 算法 ; 1.4 节 至 1.7 节 相继 介绍 监督 学 习 的 几 个 重要 概念 , 包 
括 模型 评估 与 模型 选择 、 正 则 化 与 交叉 验证 、 学 习 的 泛 化 能 力 、 生 成 模型 与 判别 模型 ; 
最 后 1.8 节 介绍 监督 学 习 的 应 用 : 分 类 问题 , 标注 问题 与 回归 问题 。 


11 统计 学 习 


1. 统计 学 习 的 特点 

统计 学 习 (statistical learning) 是 关于 计算 机 基于 数据 构建 概率 统计 模型 并 运用 
模型 对 数据 进行 预测 与 分 析 的 一 门 学 科 。 统计 学 习 也 称 为 统计 机 器 学 习 (statistical 
machine learning) 。 

统计 学 习 的 主要 特点 是 : CL) 统计 学 习 以 计 算 机 及 网 络 为 平台 , 是 建立 在 计算 机 
及 网 络 上 的 ; (2) 统计 学 习 以 数 据 为 研究 对 象 ， 是 数据 驱动 的 学 科 ; (3) 统计 学 习 的 目 
的 是 对 数据 进行 预测 与 分 析 ; (4) 统计 学 习 以 方法 为 中 心 , 统计 学 习 方 法 构建 模型 并 
应 用 模型 进行 预测 与 分 析 ; (5) 统计 学 习 是 概率 论 、 统计 学 、 信息论、 计算 理论 、 最 优 
化 理论 及 计算 机 科学 等 多 个 领域 的 交叉 学 科 , 并 且 在 发 展 中 逐步 形成 独自 的 理论 体系 
与 方法 论 。 

赫 尔 伯 特 。 西 蒙 (Herbert A. Simon) 曾 对 “学 习 ” 给 出 以 下 定义 : “如果 一 个 系统 
能 够 通过 执行 某 个 过 程 改 进 它 的 性 能 , 这 就 是 学 习 。” 按 照 这 一 观点 , 统计 学 习 就 是 计 
算 机 系统 通过 运用 数据 及 统计 方法 提高 系统 性 能 的 机 器 学 习 。 ME, 当 人 们 提 及 机 器 
学 习 时 , 往往 是 指 统计 机 器 学 习 。 所 以 可 以 认为 本 书 介绍 的 是 机 器 学 习 方 法 。 
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2. 统计 学 习 的 对 象 

统计 学 习 研 究 的 对 象 是 数据 (data) 。 它 从 数据 出 发 , 提取 数据 的 特征 , 抽象 出 数 
据 的 模型 ， 发 现 数据 中 的 知识 ， 又 回 到 对 数据 的 分 析 与 预测 中 去 。 作 为 统计 学 习 的 对 
象 , 数据 是 多 样 的 , 包括 存在 于 计算 机 及 网 络 上 的 各 种 数字 、 文 字 、 图 像 、 视 频 、 音 频 
数据 以 及 它们 的 组 合 。 

统计 学 习 关于 数据 的 基本 假设 是 同类 数据 具有 一 定 的 统计 规律 性 , 这 是 统计 学 习 
的 前 提 。 这 里 的 同类 数据 是 指 具 有 某 种 共同 性 质 的 数据 , 例如 英文 文章 、 互 联网 网 页 、 
数据 库 中 的 数据 等 。 由 于 它们 具有 统计 规律 性 ,所 以 可 以 用 概率 统计 方法 处 理 它们 。 
比如 , 可 以 用 随机 变量 描述 数据 中 的 特征 , 用 概率 分 布 描述 数据 的 统计 规律 。 在 统计 
学 习 中 ,以 变量 或 变量 组 表示 数据 。 数 据 分 为 由 连续 变量 和 离散 变量 表示 的 类 型 。 本 
书 以 讨论 离散 变量 的 方法 为 主 。 另 外 , 本 书 只 涉及 利用 数据 构建 模型 及 利用 模型 对 数 
据 进行 分 析 与 预测 ， 对 数据 的 观测 和 收集 等 问题 不 作 讨论 。 

3. 统计 学 习 的 目的 

统计 学 习 用 于 对 数据 的 预测 与 分 析 , 特别 是 对 未 知 新 数据 的 预测 与 分 析 。 对 数据 
的 预测 可 以 使 计算 机 更 加 智能 化 , 或 者 说 使 计算 机 的 某 些 性 能 得 到 提高 ; 对 数据 的 分 
析 可 以 让 人 们 获取 新 的 知识 , 给 人 们 带 来 新 的 发 现 。 

对 数据 的 预测 与 分 析 是 通过 构建 概率 统计 模型 实现 的 。 统计 学 习 总 的 目标 就 是 考 
虑 学习 什么 样 的 模型 和 如 何 学 习 模 型 ， 以 使 模型 能 对 数据 进行 准确 的 预测 与 分 析 , 同 
时 也 要 考虑 尽 可 能 地 提高 学 习 效率 。 

4. 统计 学 习 的 方法 

统计 学 习 的 方法 是 基于 数据 构建 概率 统计 模型 从 而 对 数据 进行 预测 与 分 析 。 统计 
学 习 由 监督 学 习 (supervised learning) 、 无 监督 学 习 (unsupervised learning) 和 强化 
学 习 (reinforcement learning) 等 组 成 。 

本 书 第 1 篇 讲述 监督 学 习 , 第 2 篇 讲述 无 监督 学 习 。 可 以 说 监督 学 习 、 无 监督 学 
习 方法 是 最 主要 的 统计 学 习 方 法 。 

统计 学 习 方法 可 以 概括 如 下 : 从 给 定 的 有 限 的 、 用 于 学 习 的 训练 数据 (training 
data) 集合 出 发 ， 假 设 数据 是 独立 同 分 布 产 生 的 ; 并 且 假设 要 学 习 的 模型 属于 某 
个 函数 的 集合 ， 称 为 假设 空间 (hypothesis space) ; 应 用 某 个 评价 准则 (evaluation 
criterion) ， 从 假设 空间 中 选取 一 个 最 优 模型 , 使 它 对 已 知 的 训练 数据 及 未 知 的 测试 数 
据 (test data) 在 给 定 的 评价 准则 下 有 最 优 的 预测 ; 最 优 模型 的 选取 由 算法 实现 。 这 样 ， 
统计 学 习 方法 包括 模型 的 假设 空间 、 模型 选择 的 准则 以 及 模型 学 习 的 算法 。 称 其 为 统 
计 学 习 方法 的 三 要 素 , 简称 为 模型 (model) 、 策 略 (strategy) 和 算法 (algorithm) 。 

实现 统计 学 习 方 法 的 步骤 如 下 : 

(1) 得 到 一 个 有 限 的 训练 数据 集合 ; 
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(2) 确定 包含 所 有 可 能 的 模型 的 假设 空间 ， 即 学 习 模型 的 集合 ， 

(3) 确定 模型 选择 的 准则 ， 即 学 习 的 策略 ; 

(A) 实现 求解 最 优 模 型 的 算法 ， 即 学 习 的 算法 ; 

(5) 通过 学 习 方法 选择 最 优 模型 

(6) 利用 学 习 的 最 优 模型 对 新 数据 进行 预测 或 分 析 。 

本 书 第 1 篇 介绍 监督 学 习 方法 ,主要 包括 用 于 分 类 、 标注 与 回归 问题 的 方法 。 这 
些 方法 在 自然 语言 处 理 、 信 息 检索 、 文 本 数据 挖掘 等 领域 中 有 着 极其 广泛 的 应 用 。 

5. 统计 学 习 的 研究 

统计 学 习 研究 一 般 包 括 统计 学 习 方法 、 统 计 学 习 理论 及 统计 学 习 应 用 三 个 方面 。 
统计 学 习 方 法 的 研究 绅 在 开发 新 的 学 习 方法 ; 统计 学 习 理论 的 研究 在 于 探求 统计 学 习 
方法 的 有 效 性 与 效率 ,以 及 统计 学 习 的 基本 理论 问题 ; 统计 学 习 应 用 的 研究 主要 考虑 
将 统计 学 习 方法 应 用 到 实际 问题 中 去 ， 解决 实际 问题 

6. 统计 学 习 的 重要 性 

近 二 十 年 来 , 统计 学 习 无 论 是 在 理论 还 是 在 应 用 方面 都 得 到 了 巨大 的 发 展 , 有 许 
多 重大 突破 ， 统 计 学 习 已 被 成 功 地 应 用 到 人 工 智能 、 模 式 识别 、 数 据 控 据 、 自 然 语言 
处 理 、 语 音 处 理 、 计 算 视觉 、 信 息 检索 、 生 物 信息 等 许多 计算 机 应 用 领域 中 , 并且 成 为 
这 些 领 域 的 核心 技术 。 人 们 确信 ,统计 学 习 将 会 在 今后 的 科学 发 展 和 技术 应 用 中 发 挥 
越 来 越 大 的 作用 。 

统计 学 习 学 科 在 科学 技术 中 的 重要 性 主要 体现 在 以 下 几 个 方面 

CL) 统计 学 习 是 处 理 海量 数据 的 有 效 方法 。 我 们 处 于 一 个 信息 爆炸 的 时 代 , 海量 
数据 的 处 理 与 利用 是 人 们 必然 的 需求。 现实 中 的 数据 不 但 规模 大 ， 而 且 常 常 具有 不 确 
定性 , 统计 学 习 往往 是 处 理 这 类 数据 最 强 有 力 的 工具 。 

(2) 统计 学 习 是 计算 机 智能 化 的 有 效 手 段 。 智 能 化 是 计算 机 发 展 的 必然 趋势， 也 
是 计算 机 技术 研究 与 开发 的 主要 目标 。 近 几 十 年 来 ,人工 智 能 等 领域 的 研究 证 明 , 利 
用 统计 学 习 模 仿 人 类 智能 的 方法 , 虽 有 一 定 的 局 限 性 , 还 是 实现 这 一 目标 的 最 有 效 
手段 。 

(3) 统计 学 习 是 计算 机 科学 发 展 的 一 个 重要 组 成 部 分 。 可 以 认为 计算 机 科学 由 三 
维 组 成: 系统 、 计算 、 信息 。 统计 学 习 主要 属于 信息 这 一 维 , 并 在 其 中 起 着 核心 作用 。 
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统计 学 习 或 机 器 学 习 是 一 个 范围 宽阔 、 内 容 繁 多 、 应 用 广泛 的 领域 , 并 不 存在 (至 
少 现 在 不 存在 ) 一 个 统一 的 理论 体系 涵盖 所 有 内 容 。 下 面 从 几 个 角度 对 统计 学 习 方法 
进行 分 类 。 


6 第 1 章 统计 学 习 及 监督 学 习 概 论 


121 基本 分 类 


统计 学 习 或 机 器 学 习 一 般 包 括 监督 学 习 、 无 监督 学 习 、 强 化 学 习 。 有 时 还 包括 半 
监督 学 习 、 主 动 学 习 。 

1. 监督 学 习 

监督 学 习 (supervised learning) 是 指 从 标注 数据 中 学 习 预 测 模型 的 机 器 学 习 问 
题 。 标注 数据 表示 输入 输出 的 对 应 关系 , 预测 模型 对 给 定 的 输入 产生 相应 的 输出 。 监 
督学 习 的 本 质 是 学 习 输 入 到 输出 的 映射 的 统计 规律 。 

(1) 输入 空间 、 特征 空间 和 输出 空间 

在 监督 学 习 中 , 将 输入 与 输出 所 有 可 能 取 值 的 集合 分 别称 为 输入 空间 (input 
space) 与 输出 空间 (output space)。 输 入 与 输出 空间 可 以 是 有 限 元 素 的 集合 , 也 可 以 
是 整个 欧 氏 空间 。 输入 空间 与 输出 空间 可 以 是 同一 个 空间 , 也 可 以 是 不 同 的 空间 ; 但 
通常 输出 空间 远 远 小 于 输入 空间 。 

每 个 具体 的 输入 是 一 个 实例 (instance) ,通常 由 特征 向 量 (feature vector) 表示 。 
这 时 , 所 有 特征 向 量 存 在 的 空间 称 为 特征 空间 (feature space) 。 特 征 空 间 的 每 一 维 对 
应 于 一 个 特征 。 有 时 假设 输入 空间 与 特征 空间 为 相同 的 空间 , 对 它们 不 予 区 分 ; 有 时 
假设 输入 空间 与 特征 空间 为 不 同 的 空间 , 将 实例 从 输入 空间 映射 到 特征 空间 。 模 型 实 
际 上 都 是 定义 在 特征 空间 上 的 。 

在 监督 学 习 中 , 将 输入 与 输出 看 作 是 定义 在 输入 (特征 ) 空间 与 输出 空间 上 的 随 
机 变量 的 取 值 。 输入 输出 变量 用 大 写字 母 表示 , 习惯 上 输入 变量 写作 X, 输出 变量 写 
EY. 输入 输出 变量 的 取 值 用 小 写字 母 表示 , 输入 变量 的 取 值 写作 x, 输出 变量 的 取 
值 写 作 y。 变量 可 以 是 标量 或 向 量 , 都 用 相同 类 型 字母 表示 。 除 特别 声明 外 ， 本 书 中 向 
量 均 为 列 向 量 。 输入 实例 z 的 特征 向 量 记 作 


ax (2,2... GD z)" 


2O 表示 z 的 第 i 个 特征 。 注 意 À 与 zx; 不 同 ,本 书 通常 用 x; 表示 多 个 输入 变量 中 
的 第 i 个 变量 , 即 


T 
sa (PaPa) 


监督 学 习 从 训练 数据 (training data) 集合 中 学 习 模型 ， 对 测试 数据 (test data) 
进行 预测 。 训 练 数据 由 输入 《或 特征 向 量 ) 与 输出 对 组 成 , 训练 集 通常 表示 为 


T = {(21, 91), (zy2) , (ZN, YN)} 


测试 数据 也 由 输入 与 输出 对 组 成 。 输入 与 输出 对 又 称 为 样本 (sample) 或 样本 点 。 
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输入 变量 X 和 输出 变量 Y 有 不 同 的 类 型 , 可 以 是 连续 的 , 也 可 以 是 离散 的 。 人 
们 根据 输入 输出 变量 的 不 同类 型 , 对 预测 任务 给 予 不 同 的 名 称 : 输入 变量 与 输出 变量 
均 为 连续 变量 的 预测 问题 称 为 回归 问题 ; 输出 变量 为 有 限 个 离散 变量 的 预测 问题 称 为 
分 类 问题 ; 输入 变量 与 输出 变量 均 为 变量 序列 的 预测 问题 称 为 标注 问题 。 

(2) 联合 概率 分 布 

监督 学 习 假 设 输入 与 输出 的 随机 变量 X 和 YY 遵循 联合 概率 分 布 P(X,Y)。 
P(X,Y) 表示 分 布 函数 ,或 分 布 密度 函数 。 注意 在 学 习 过 程 中 , 假定 这 一 联合 概率 分 
布 存 在 , 但 对 学 习 系 统 来 说 , 联合 概率 分 布 的 具体 定义 是 未 知 的 。 训 练 数据 与 测试 数 
据 被 看 作 是 依 联 合 概率 分 布 P(X, Y) 独立 同 分 布 产生 的 。 统计 学 习 假设 数据 存在 一 定 
的 统计 规律 , X 和 了 具有 联合 概率 分 布 就 是 监督 学 习 关 于 数据 的 基本 假设 。 

(3) 假设 空间 

监督 学 习 的 目的 在 于 学 习 一 个 由 输入 到 输出 的 映射 ,这 一 映射 由 模型 来 表示 。 换 
句 话说 , 学 习 的 目的 就 在 于 找到 最 好 的 这 样 的 模型 。 模 型 属于 由 输入 空间 到 输出 空间 
的 映射 的 集合 , 这 个 集合 就 是 假设 空间 Chypothesis space) 。 假 设 空间 的 确定 意味 着 
学 习 的 范围 的 确定 。 

监督 学 习 的 模型 可 以 是 概率 模型 或 非 概率 模型 ， 由 条 件 概率 分 布 P(Y|X) 或 决策 
函数 (decision function) Y = f(X) 表示 ， 随 具体 学 习 方法 而 定 。 对 具体 的 输入 进行 
相应 的 输出 预测 时 , 写作 P(ylz) R y = f(z)。 

(4) 问题 的 形式 化 

监督 学 习 利 用 训练 数据 集 学 习 一 个 模型 , 再 用 模型 对 测试 样本 集 进行 预测 。 由 于 
在 这 个 过 程 中 需要 标注 的 训练 数据 集 , 而 标注 的 训练 数据 集 往往 是 人 工 给 出 的 , 所 以 
称 为 监督 学 习 。 监督 学习 分 为 学 习 和 预测 两 个 过 程 ， 由 学 习 系 统 与 预测 系统 完成 ,可 
用 图 1.1 来 描述 。 


rYA) Ann) a 
一 一 ~| 学 习 系统 模型 
Pox) 
JAX) 
“yl 预测 系统 Lig 


图 1.1 监督 学 习 
首先 给 定 一 个 训练 数据 集 


T = {(21, 91), (z2, Y2) , (TN, YN)} 
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其 中 (xi, yi)» i = 1,2,… ,，N， 称 为 样本 或 样本 点 。zi EX CR” 是 输入 的 观测 值 , 也 
称 为 输入 或 实例 , y; e 2 是 输出 的 观测 值 ， 也 称 为 输出 。 

监督 学 习 分 为 学 习 和 预测 两 个 过 程 ， 由 学 习 系 统 与 预测 系统 完成 。 在 学 习 过 程 中 ， 
学 习 系统 利用 给 定 的 训练 数据 集 , 通过 学 习 (或 训练 ) 得 到 一 个 模型 , 表示 为 条 件 概率 
分 布 P(Y|X) 或 决策 函数 Y = f(X)。 条 件 概率 分 布 P(Y|X) 或 决策 函数 Y = f(X) 
描述 输入 与 输出 随机 变量 之 间 的 映射 关系 。 在 预测 过 程 中 , 预测 系统 对 于 给 定 的 测试 
样本 集中 的 输入 zw+1， 由 模型 yw+1 = arg max P(y|zn+1) BK yny = /zw+l) 给 出 
相应 的 输出 YN+1° 
在 监督 学 习 中 , 假设 训练 数据 与 测试 数据 是 依 联合 概率 分 布 P(X, Y) 独立 同 分 布 
产生 的 。 

学 习 系 统 (也 就 是 学 习 算 法 ) 试图 通过 训练 数据 集中 的 样本 (zi, yi) 带 来 的 信息 
学 习 模 型 。 具体 地 说 , 对 输入 zi, 一 个 具体 的 模型 y = f(x) 可 以 产生 一 个 输出 f(xi)， 
而 训练 数据 集中 对 应 的 输出 是 y;。 如 果 这 个 模型 有 很 好 的 预测 能 力 ， 训练 样本 输出 yi 
和 模型 输出 f(zi) 之 间 的 差 就 应 该 足够 小 。 学习 系 统 通过 不 断 地 尝试 , 选取 最 好 的 模 
型 ,以便 对 训练 数据 集 有 足够 好 的 预测 ,同时 对 未 知 的 测试 数据 集 的 预测 也 有 尽 可 能 
好 的 推广 。 

2. 无 监督 学 习 

无 监督 学 习 (unsupervised learning) 是 指 从 无 标注 数据 中 学 习 预 测 模型 的 机 器 
学 习 问 题 。 无 标注 数据 是 自然 得 到 的 数据 , 预测 模型 表示 数据 的 类 别 、 转 换 或 概率 。 无 
监督 学 习 的 本 质 是 学 习 数 据 中 的 统计 规律 或 潜在 结构 。 

模型 的 输入 与 输出 的 所 有 可 能 取 值 的 集合 分 别称 为 输入 空间 与 输出 空间 。 输 入 空 
间 与 输出 空间 可 以 是 有 限 元 素 集合 , 也 可 以 是 欧 氏 空间 。 每 个 输入 是 一 个 实例 ， 由 特 
征 向 量 表示 。 每 一 个 输出 是 对 输入 的 分 析 结 果 ， 由 输入 的 类 别 、 转 换 或 概率 表示 。 模 
型 可 以 实现 对 数据 的 聚 类 、 降 维 或 概率 估计 。 

假设 区 是 输入 空间 , Z 是 隐 式 结构 空间 。 要 学 习 的 模型 可 以 表示 为 函数 z = g(x), 
条 件 概率 分 布 P(z|z), 或 者 条 件 概率 分 布 P(z|z) 的 形式 , 其 中 ze 4 区 EmA zez 
是 输出 。 包 含 所 有 可 能 的 模型 的 集合 称 为 假设 空间 。 无 监督 学 习 旨 在 从 假设 空间 中 选 
出 在 给 定 评 价 标准 下 的 最 优 模型 。 

无 监督 学 习 通 常 使 用 大 量 的 无 标注 数据 学 习 或 训练 , 每 一 个 样本 是 一 个 实例 。 训 
练 数据 表示 为 U = {21,22,--- ,ZN}, 其 中 zxi, i=1,2,---,N, 是 样本 。 

无 监督 学 习 可 以 用 于 对 已 有 数据 的 分 析 ， 也 可 以 用 于 对 未 来 数据 的 预测 。 分 
析 时 使 用 学 习 得 到 的 模型 ， 即 函数 z = G(x), 条 件 概 率 分 布 户 (z|z), 或 者 条 件 概率 
分 布 户 (z|z)。 预测 时 ， 和 监督 学 习 有 类 似 的 流程 。 由 学 习 系 统 与 预测 系统 完成 ,如 

O 也 译作 非 监 督学 习 。 
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1.2 所 示 。 在 学 习 过 程 中 , 学 习 系 统 从 训练 数据 集 学 习 , 得 到 一 个 最 优 模型 , 表示 为 
函数 > = G(x), 条 件 概率 分 布 户 (z|z) 或 者 条 件 概率 分 布 户 (z|z)。 在 预测 过 程 中 , 预测 
系统 对 于 给 定 的 输入 sny BRW xzv+l = 5(zw+l) Meng = arg max P(zlzn+1) 
给 出 相应 的 输出 zw+l， 进 行 聚 类 或 降 维 ， 或 者 由 模型 P(z|z) 给 出 输入 的 概率 
P(tyy1 Zn41)> 进行 概率 估计 。 


2=8(x) 
Xis X233 XN 
— 学 习 系统 
Zya = 8X1) 
Zy 4, =argmax P(z|xy,1) 
XN+ s 


一 一 一 一 预测 系统 


Ply 1zw+D) 


图 1.2 ”无 监督 学 习 


3. 强化 学 习 


强化 学 习 (reinforcement learning) 是 指 智能 系统 在 与 环境 的 连续 互动 中 学 习 
最 优 行为 策略 的 机 器 学 习 问 题 。 假设 智能 系统 与 环境 的 互动 基于 马尔 可 夫 决 策 过 
程 (Markov decision process), 智能 系统 能 观测 到 的 是 与 环境 互动 得 到 的 数据 序列 。 
强化 学 习 的 本 质 是 学 习 最 优 的 序 贯 决策 。 

智能 系统 与 环境 的 互动 如 图 1.3 所 示 。 在 每 一 步 t, 智能 系统 从 环境 中 观测 到 一 个 
状态 (state) si 与 一 个 奖励 (reward) rt， 采取 一 个 动作 Caction) at 。 环 境 根据 智能 系 
统 选择 的 动作 , 决定 下 一 步 t 十 1 的 状态 se+1 与 奖励 +l。 要 学 习 的 策略 表示 为 给 定 
的 状态 下 采取 的 动作 。 智能 系统 的 目标 不 是 短期 奖励 的 最 大 化 , 而 是 长 期 累积 奖励 的 
最 大 化 。 强 化 学 习 过 程 中 , 系统 不 断 地 试 错 (trial and error)， 以 达到 学 习 最 优 策 略 的 
目的 。 


St rn a 


环境 


1.3 ”智能 系统 与 环境 的 互动 
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强化 学 习 的 马尔 可 夫 决 策 过 程 是 状态 、 奖 励 、 动 作 序列 上 的 随机 过 程 ， 由 五 元 组 
(5S, 4, P,r, 7) 组 成 。 

o S 是 有 限 状态 (state) 的 集合 

e A 是 有 限 动 作 (action) 的 集合 

e P 是 状态 转移 概率 (transition probability) 函数 : 


P(s'|s,a) = P(st41 = s'|st = 5,0; = a) 


o r 是 奖励 函数 (reward function) : r(s,a) = E(ri4ilse = $, a = a) 

o y 是 衰减 系数 (discount factor) : y € [0,1] 

马尔 可 夫 决 策 过 程 具有 马尔 可 夫 性 ,下 一 个 状态 只 依赖 于 前 一 个 状态 与 动作 ,由 
状态 转移 概率 函数 P(s'|s,a) 表示 。 下 一 个 奖励 依赖 于 前 一 个 状态 与 动作 ， 由 奖励 函 
数 7(s,a) 表示 。 

策略 定义 为 给 定 状态 下 动作 的 函数 a = f(s) 或 者 条 件 概率 分 布 P(als)。 给 定 
一 个 策略 m, 智能 系统 与 环境 互动 的 行为 就 已 确定 (或 者 是 确定 性 的 或 者 是 随机 性 
的 )。 

价值 函数 (value function) 或 状态 价值 函数 (state value function) 定义 为 策略 m 
从 某 一 个 状态 s 开始 的 长 期 累积 奖励 的 数学 期 望 : 


Un(s) = Er[riti 十 Trt+2 + Pris ++: lse = 引 (1.1) 


动作 价值 函数 (action value function) 定义 为 策略 r 的 从 某 一 个 状态 s 和 动作 a 
开始 的 长 期 累积 奖励 的 数学 期 望 : 


qr(s,a) = Erlret1+ 7142+ re43 +--+ [se = s,at = a] (1.2) 


强化 学 习 的 目标 就 是 在 所 有 可 能 的 策略 中 选 出 价值 函数 最 大 的 策略 rx*， 而 在 实际 
学 习 中 往往 从 具体 的 策略 出 发 , 不 断 优化 已 有 策略 。 这 里 7 表示 未 来 的 奖励 会 有 衰减 。 
强化 学 习 方 法 中 有 基于 策略 的 (policy-based)、 基 于 价值 的 (value-based), 这 两 
者 属于 无 模型 的 (model-free) 方法 , 还 有 有 模型 的 (model-based) 方法 。 

有 模型 的 方法 试图 直接 学 习 马 尔 可 夫 决 策 过 程 的 模型 ， 包 括 转移 概率 函数 
P(s'|s,a) 和 奖励 函数 r(s,a)。 这 样 可 以 通过 模型 对 环境 的 反馈 进行 预测 , 求 出 价值 函 
数 最 大 的 策略 n*o 

无 模型 的 、 基 于 策略 的 方法 不 直接 学 习 模 型 , 而 是 试图 求解 最 优 策略 x*， 表示 为 
函数 a = f*(s) 或 者 是 条 件 概率 分 布 P*(als), 这 样 也 能 达到 在 环境 中 做 出 最 优 决策 的 
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目的 。 学习 通常 从 一 个 具体 策略 开始 , 通过 搜索 更 优 的 策略 进行 。 

无 模型 的 、 基 于 价值 的 方法 也 不 直接 学 习 模型 , 而 是 试图 求解 最 优 价 值 函 数 , 特 
别 是 最 优 动作 价值 函数 g*(s,a)。 这 样 可 以 间接 地 学 到 最 优 策略 , 根据 该 策略 在 给 定 的 
状态 下 做 出 相应 的 动作 。 学习 通常 从 一 个 具体 价值 函数 开始 , 通过 搜索 更 优 的 价值 函 
数 进行 。 

4. 半 监 督学 习 与 主动 学 习 

半 监 督学 习 (semi-supervised learning) 是 指 利用 标注 数据 和 未 标注 数据 学 习 预 
测 模型 的 机 器 学 习 问 题 。 通 常 有 少量 标注 数据 、 大 量 未 标注 数据 ,因为 标注 数据 的 构 
建 往往 需要 人 工 , 成 本 较 高 , 未 标注 数据 的 收集 不 需 太 多 成 本 。 半 监督 学 习 旨 在 利用 
未 标注 数据 中 的 信息 ， 辅 助 标注 数据 ,进行 监督 学 习 ， 以 较 低 的 成 本 达到 较 好 的 学 习 
效果 。 
主动 学 习 (active learning) 是 指 机 器 不 断 主动 给 出 实例 让 教师 进行 标注 , 然后 利 
用 标注 数据 学 习 预 测 模型 的 机 器 学 习 问 题 。 通常 的 监督 学 习 使 用 给 定 的 标注 数据 , 往 
往 是 随机 得 到 的 , 可 以 看 作 是 “被 动 学 习 ”, 主动 学 习 的 目标 是 找 出 对 学 习 最 有 帮助 的 
实例 让 教师 标注 , 以 较 小 的 标注 代价 , 达到 较 好 的 学 习 效 果 。 

半 监 督学 习 和 主动 学 习 更 接近 监督 学 习 。 


1.2.2 ” 按 模 型 分 类 

统计 学 习 或 机 器 学 习 方 法 可 以 根据 其 模型 的 种 类 进行 分 类 。 

1. 概率 模型 与 非 概率 模型 

统计 学 习 的 模型 可 以 分 为 概率 模型 (probabilistic model) 和 非 概率 模型 (non- 
probabilistic model) 或 者 确定 性 模型 (deterministic model) 。 在 监督 学 习 中 ,概率 模 
型 取 条 件 概率 分 布 形式 P(ylz),， 非 概率 模型 取 函 数 形式 y = f(z), 其 中 zx 是 输入 , y 
是 输出 。 在 无 监督 学 习 中 , 概率 模型 取 条 件 概率 分 布 形式 P(z|z) 或 P(z|z), 非 概 率 模 
型 取 函 数 形式 z = g(x), 其 中 z 是 输入 , z 是 输出 。 在 监督 学 习 中 , 概率 模型 是 生成 模 
型 , 非 概 率 模型 是 判别 模型 。 

本 书 介绍 的 决策 树 、 朴 素 贝 叶 斯 、 隐 马尔 可 夫 模 型 、 条 件 随 机 场 、 概 率 潜 在 语 
义 分 析 、 潜 在 狄 利克 雷 分 配 、 高 斯 混合 模型 是 概率 模型 。 感知 机 、 支 持 向 量 机 、k 近 
邻 、 AdaBoost、k 均值 、 潜在 语义 分 析 , 以 及 神经 网 络 是 非 概率 模型 。 逻辑 斯 席 回 归 既 
可 看 作 是 概率 模型 , 又 可 看 作 是 非 概 率 模型 。 

条 件 概 率 分 布 P(ylz) 和 函数 y = f(x) 可 以 相互 转化 (条件 概率 分 布 P(z|z) 和 
函数 z = g(x) 同样 可 以 )。 具 体 地 , 条 件 概率 分 布 最 大 化 后 得 到 函数 ,函数 归 一 化 后 
得 到 条 件 概率 分 布 。 所 以 , 概率 模型 和 非 概 率 模型 的 区 别 不 在 于 输入 与 输出 之 间 的 映 
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射 关 系 , 而 在 于 模型 的 内 在 结构 。 概率 模型 一 定 可 以 表示 为 联合 概率 分 布 的 形式 , 其 
中 的 变量 表示 输入 、 输 出 、 隐 变量 甚至 参数 。 而 针对 非 概 率 模型 则 不 一 定 存在 这 样 的 
联合 概率 分 布 。 

概率 模型 的 代表 是 概率 图 模型 (probabilistic graphical model)， 概 率 图 模型 是 联 
合 概率 分 布 由 有 向 图 或 者 无 向 图 表示 的 概率 模型 , 而 联合 概率 分 布 可 以 根据 图 的 结构 
分 解 为 因子 乘积 的 形式 。 贝 叶 斯 网 络 、 马 尔 可 夫 随 机 场 、 条 件 随机 场 是 概率 图 模型 。 无 
论 模 型 如 何 复杂 , 均 可 以 用 最 基本 的 加 法 规则 和 乘法 规则 (参照 图 1.4) 进行 概率 推理 。 


加 法 规则 : P(x) = 2 PCy) 


乘法 规则 : P(x,y)= P(x)P(y | x) 


其 中 x 和 了 是 随机 变量 


图 1.4 ”基本 概率 公式 


2. 线性 模型 与 非 线 性 模型 

统计 学 习 模型 , 特别 是 非 概率 模型 ， 可 以 分 为 线性 模型 (linear model) 和 非 线性 
模型 (non-linear model) 。 如 果 函 数 y = f(x) Mz = g(x) 是 线性 函数 , 则 称 模型 是 线 
性 模型 ， 否 则 称 模型 是 非 线 性 模型 。 

本 书 介绍 的 感知 机 、 线 性 支持 向 量 机 、k 近邻 、k 均值 、 潜在 语义 分 析 是 线性 模 
型 。 核 函数 支持 向 量 机 、AdaBoost、 神 经 网 络 是 非 线 性 模型 。 

深度 学 习 (deep learning) 实际 是 复杂 神经 网 络 的 学 习 , 也 就 是 复杂 的 非 线 性 模 
型 的 学 习 。 

3. 参数 化 模型 与 非 参 数 化 模型 

统计 学 习 模 型 又 可 以 分 为 参数 化 模型 (parametric model) 和 非 参 数 化 模型 (non- 
parametric model) 。 参 数 化 模型 假设 模型 参数 的 维度 固定 , 模型 可 以 由 有 限 维 参数 完 
全 刻画 ; 非 参 数 化 模型 假设 模型 参数 的 维度 不 固定 或 者 说 无 穷 大 ， 随 着 训练 数据 量 的 
增加 而 不 断 增 大 。 

本 书 介 绍 的 感知 机 、 朴 素 贝 叶 斯 、 逻 辑 斯 详 回 归 、K 均值 、 高 斯 混合 模型 是 参数 化 
模型 。 决 策 树 、 支持 向 量 机 、AdaBoost、k 近邻 、 潜 在 语义 分 析 、 概 率 潜在 语义 分 析 、 
潜在 狄 利克 雷 分 配 是 非 参 数 化 模型 。 

参数 化 模型 适合 问题 简单 的 情况 , 现实 中 问题 往往 比较 复杂 ， 非 参数 化 模型 更 加 
有 效 。 
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1.2.3” 按 算法 分 类 


统计 学 习 根据 算法 ， 可 以 分 为 在 线 学 习 (online learning) 与 批量 学 习 (batch 
learning) 。 在线 学 习 是 指 每 次 接受 一 个 样本 , 进行 预测 , 之 后 学 习 模型 ,并 不 断 重复 
该 操作 的 机 器 学 习 。 与 之 对 应 , 批量 学 习 一 次 接受 所 有 数据 ,学 习 模 型 , 之 后 进行 预 
W. 有些 实际 应 用 的 场景 要 求学 习 必须 是 在 线 的。 比如 , 数据 依次 达到 无 法 存储 ， K 
统 需 要 及 时 做 出 处 理 ; 数据 规模 很 大 , 不 可 能 一 次 处 理 所 有 数据 ; 数据 的 模式 随时 间 
动态 变化 , 需要 算法 快速 适应 新 的 模式 (不 满足 独立 同 分 布 假设 )。 
在 线 学 习 可 以 是 监督 学 习 , 也 可 以 是 无 监督 学 习 , 强化 学 习 本 身 就 拥有 在 线 学 习 
的 特点 。 以 下 只 考虑 在 线 的 监督 学 习 。 

学 习 和 预测 在 一 个 系统 , 每 次 接受 一 个 输入 ro 用 已 有 模型 给 出 预测 f(z1), 之 后 
得 到 相应 的 反馈 ， 即 该 输入 对 应 的 输出 yes 系统 用 损失 函数 计算 两 者 的 差异 , 更 新 模 
型 ; 并 不 断 重复 以 上 操作 。 见 图 1.5。 


Yı 


; F(x) i 
— 学 习 预 测 系 统 一 


1(f G6),») 


图 1.5 ”在 线 学 习 


利用 随机 梯度 下 降 的 感知 机 学 习 算法 就 是 在 线 学 习 算 法 。 
在 线 学 习 通常 比 批量 学 习 更 难 , 很 难 学 到 预测 准确 率 更 高 的 模型 ,因为 每 次 模型 
更 新 中 , 可 利用 的 数据 有 限 。 


1.2.4” 按 技巧 分 类 
统计 学 习 方 法 可 以 根据 其 使 用 的 技巧 进行 分 类 。 
1. 贝 叶 斯 学 习 
贝 叶 斯 学 习 (Bayesian learning) ， 又 称 为 贝 叶 斯 推理 (Bayesian inference) ,是 
统计 学 、 机 器 学 习 中 重要 的 方法 。 其 主要 想法 是 , 在 概率 模型 的 学 习 和 推理 中 , AA 
叶 斯 定理 , 计算 在 给 定数 据 条 件 下 模型 的 条 件 概 率 ，, 即 后 验 概率 , 并 应 用 这 个 原理 
行 模型 的 估计 ,以 及 对 数据 的 预测 。 将 模型 、 未 观测 要 素 及 其 参数 用 变量 表示 , 使 用 
模型 的 先 验 分 布 是 贝 叶 斯 学 习 的 特点 。 贝 叶 斯 学 习 中 也 使 用 基本 概率 公式 (图 1.4)。 
本 书 介绍 的 朴素 贝 叶 斯 、 潜 在 狄 利克 雷 分 配 的 学 习 属 于 贝 叶 斯 学 习 。 
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假设 随机 变量 D 表示 数据 ,随机 变量 9 表示 模型 参数 。 根 据 贝 叶 斯 定理 , 可 以 用 
以 下 公式 计算 后 验 概率 P(9|D): 


P(0)P(D|6) 


POD) = “Toy 


(1.3) 


其 中 P(9) 是 先 验 概率 ,，P(D|9) 是 似 然 函数 。 

模型 估计 时 , 估计 整个 后 验 概率 分 布 P(9|D)。 如 果 需 要 给 出 一 个 模型 , 通常 取 后 
验 概率 最 大 的 模型 。 

预测 时 , 计算 数据 对 后 验 概率 分 布 的 期 望 值 : 


P(z|D) = / P(z|0, D)P(b|D)dg (1.4) 


这 里 > 是 新 样本 。 

贝 叶 斯 估计 与 极 大 似 然 估 计 在 思想 上 有 很 大 的 不 同 , 代表 着 统计 学 中 贝 叶 斯 学 派 
和 频率 学 派对 统计 的 不 同 认识 。 其实, 可 以 简单 地 把 两 者 联系 起 来 , 假设 先 验 分 布 是 
均匀 分 布 , 取 后 验 概率 最 大 , 就 能 从 贝 叶 斯 估计 得 到 极 大 似 然 估 计 。 图 1.6 对 贝 叶 斯 
估计 和 极 大 似 然 估计 进行 比较 。 


极 大 似 然 估计 ‘ 
D % 0 =arg max P(D]|0) ae ere 0 
0 


ÊO) 
贝 叶 斯 估计 wh XS 
Poin -POPOIO 


P(D) 


图 1.6 ” 贝 叶 斯 估计 与 极 大 似 然 估 计 


D 


= 0 


2. 核 方 法 

核 方 法 (kernel method) 是 使 用 核 函 数 表 示 和 学 习 非 线性 模型 的 一 种 机 器 学 习 方 
法 ,可 以 用 于 监督 学 习 和 无 监督 学 习 。 有 一 些 线性 模型 的 学 习 方法 基于 相似 度 计 算 ， 
更 具体 地 , 向 量 内 积 计 算 。 核 方法 可 以 把 它们 扩展 到 非 线 性 模型 的 学 习 , 使 其 应 用 范 

本 书 介绍 的 核 函 数 支 持 向 量 机 ,以 及 核 PCA、 核 k 均值 属于 核 方 法 。 

把 线性 模型 扩展 到 非 线 性 模型 , 直接 的 做 法 是 显 式 地 定义 从 输入 空间 ( 低 维 空间 》 
到 特征 空间 (高 维 空间 ) 的 映射 , 在 特征 空间 中 进行 内 积 计算 。 比 如 , 支持 向 量 机 , 把 
输入 空间 的 线性 不 可 分 问题 转化 为 特征 空间 的 线性 可 分 问题 , 如 图 1.7 所 示 。 核 方法 
的 技巧 在 于 不 显 式 地 定义 这 个 映射 , 而 是 直接 定义 核 函 数 , 即 映 射 之 后 在 特征 空间 的 
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内 积 。 这样 可 以 简化 计算 , 达到 同样 的 效果 。 


图 1.7 输入 空间 到 特征 空间 的 映射 


假设 zx: 和 acy 是 输入 空间 的 任意 两 个 实例 (向量), 其 内 积 是 (zl, zz)。 假 设 从 输 
入 空间 到 特征 空间 的 映射 是 pg, 于 是 zz 和 zs 在 特征 空间 的 映像 是 p(x1) 和 gl) 
其 内 积 是 (yp(z1), p(2z2))。 核 方法 直接 在 输入 空间 中 定义 核 函 数 KK(z1, xz2), 使 其 满足 
K (a1, 02) = ((p(@1), p(@2)) © 表示 定理 给 出 核 函 数 技巧 成 立 的 充 要 条 件 。 
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统计 学 习 方 法 都 是 由 模型 、 策 略 和 算法 构成 的 ， 即 统计 学 习 方 法 由 三 要 素 构成 ， 
可 以 简单 地 表示 为 : 


方法 = 模型 十 策略 十 算法 


下 面 论述 监督 学 习 中 的 统计 学 习 三 要 素 。 非 监督 学 习 、 强 化 学 习 也 同样 拥有 这 三 


要 素 。 可 以 说 构建 一 种 统计 学 习 方法 就 是 确定 具体 的 统计 学 习 三 要 素 。 
1.3.1 模型 


统计 学 习 首 要 考虑 的 问题 是 学 习 什么 样 的 模型 。 在 监督 学 习 过 程 中 , 模型 就 是 所 
要 学 习 的 条 件 概率 分 布 或 决策 函数 。 模 型 的 假设 空间 (hypothesis space) 包含 所 有 可 
能 的 条 件 概率 分 布 或 决策 函数 。 例 如 , 假设 决策 函数 是 输入 变量 的 线性 函数 ,那么 模 
型 的 假设 空间 就 是 所 有 这 些 线性 函数 构成 的 函数 集合 。 假设 空间 中 的 模型 一 般 有 无 穷 
多 个 。 
假设 空间 用 F 表示 。 假设 空间 可 以 定义 为 决策 函数 的 集合 : 


F={fl¥ = f(X)} (1.5) 


其 中 , X MY 是 定义 在 输入 空间 X 和 输出 空间 Y 上 的 变量 。 这 时 F 通常 是 由 一 个 
参数 向 量 决定 的 函数 族 : 
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F= {fY = fo(X),0 E R"} (1.6) 


参数 向 量 9 取 值 于 n 维 欧 氏 空间 R”, 称 为 参数 空间 (parameter space) 。 
假设 空间 也 可 以 定义 为 条 件 概 率 的 集合 : 


F = {PIP(YIX)} (1.7) 


其 中 , X 和 YY 是 定义 在 输入 空间 ART eT] Y 上 的 随机 变量 。 这 时 F 通常 是 由 
一 个 参数 向 量 决定 的 条 件 概率 分 布 族 : 


F = {P|Po(Y|X),0€ R"} (1.8) 


参数 向 量 9 取 值 于 n 维 欧 氏 空间 及"， 也 称 为 参数 空间 。 


本 书 中 称 由 决策 函数 表示 的 模型 为 非 概率 模型 ， 由 条 件 概率 表示 的 模型 为 概率 模 
型 。 为 了 简便 起 见 ， 当 论 及 模型 时 ， 有 时 只 用 其 中 一 种 模型 。 


1.3.2 策略 


有 了 模型 的 假设 空间 ,统计 学 习 接着 需要 考虑 的 是 按照 什么 样 的 准则 学 习 或 选择 
及 优 的 模型 。 统 计 学 习 的 目标 在 于 从 假设 空间 中 选取 最 优 模型 。 
首先 引入 损失 函数 与 风险 函数 的 概念 。 损失 函 数 度 量 模 型 一 次 预测 的 好 坏 ， 风险 
函数 度量 平均 意义 下 模型 预测 的 好 坏 。 
1. 损失 陨 数 和 风险 函数 
监督 学 习 问 题 是 在 假设 空间 F 中 选取 模型 f 作为 决策 函数 , 对 于 给 定 的 输入 XX， 
由 f(X) 给 出 相应 的 输出 Y, 这 个 输出 的 预测 值 f(X) 与 真实 值 Y 可 能 一 致 也 可 能 不 
一 致 , 用 一 个 损失 函数 (loss function) 或 代价 函数 (cost function) 来 度量 预测 错误 的 
程度 。 损 失 函 数 是 f(X) AY 的 非 负 实 值 函数 , WE L(Y, f(X))- 
统计 学 习 常用 的 损失 函数 有 以 下 几 种 : 
(1) 0-1 损失 函数 (0-1 loss function) 


1, Y# F(X) 
0, Y=f(X) 


L(Y, f(X)) = | (1.9) 


(2) 平方 损失 函数 (quadratic loss function) 


L(Y, f(X)) = (Y - F(X)? (1.10) 
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(3) 绝对 损失 函数 (absolute loss function) 
L(Y, f(X)) = |Y — f(X)| (1.11) 


(4) 对 数 损失 函数 Cogarithmic loss function) 或 对 数 似 然 损 失 函 数 (log-likelihood 
loss function) 
L(Y, P(Y|X)) = —log P(Y |X) (1.12) 


损失 函数 值 越 小 , 模型 就 越 好 。 由 于 模型 的 输入 、 输 出 (X,Y) 是 随机 变量 , 遵循 
联合 分 布 P(X,Y), 所 以 损失 函数 的 期 望 是 


Rexp(f) = Ep[L(Y, f(X))] 


= f Lu, fl) Pe, wandy (1:13) 
XY 


这 是 理论 上 模型 f(X) 关于 联合 分 布 P(X,Y) 的 平均 意义 下 的 损失 ， 称 为 风险 函 
数 (risk function) 或 期 望 损 失 (expected loss) 。 

学 习 的 目标 就 是 选择 期 望 风 险 最 小 的 模型 。 由 于 联合 分 布 P(X,Y) 是 未 知 
I, Rexp(f) 不 能 直接 计算 。 实 际 上 ， 如 果 知 道 联合 分 布 P(X,Y), 可 以 从 联合 分 布 
直接 求 出 条 件 概率 分 布 P(Y|X),， 也 就 不 需要 学 习 了 。 正 因为 不 知道 联合 概率 分 布 ， 
所 以 才 需 要 进行 学 习 。 这 样 一 来 , 一 方面 根据 期 望 风险 最 小 学 习 模型 要 用 到 联合 分 
布 ， 另 一 方面 联合 分 布 又 是 未 知 的 , 所 以 监督 学 习 就 成 为 一 个 病态 问题 (ill-formed 
problem) 。 


给 定 一 个 训练 数据 集 


T = {(21, 91); (£2, Y2): , (TN,YN)} 


模型 f(X) 关于 训练 数据 集 的 平均 损失 称 为 经 验 风 险 Cempirical risk) 或 经 验 损 
失 (empirical loss) ， 记 作 Remp: 


Remol) = HD Ly Fle) (1.14) 


WEAR Rexp(f) 是 模型 关于 联合 分 布 的 期 望 损失 , 经验 风险 Remp(f) 是 模型 
关于 训练 样本 集 的 平均 损失 。 根据 大 数 定律 ， 当 样本 容量 NN 趋 于 无 穷 时 , 经 验 风险 
Remp(f) 趋 于 期 望 风险 Rexp(f)。 所 以 一 个 很 自然 的 想法 是 用 经 验 风 险 估计 期 望 风险 。 
但 是 ,由 于 现实 中 训练 样本 数目 有 限 ， 甚 至 很 小 , 所 以 用 经 验 风险 估计 期 望 风险 常常 
并 不 理想 , 要 对 经 验 风险 进行 一 定 的 矫正 。 这 就 关系 到 监督 学 习 的 两 个 基本 策略 : 经 
验 风 险 最 小 化 和 结构 风险 最 小 化 。 


| 
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2. 经 验 风险 最 小 化 与 结构 风险 最 小 化 
在 假设 空间 、 损失 函数 以 及 训练 数据 集 确定 的 情况 下 , 经 验 风险 函数 式 (1.14) 就 
可 以 确定 。 经 验 风险 最 小 化 (empirical risk minimization, ERM) 的 策略 认为 , 经 验 


风险 最 小 的 模型 是 最 优 的 模型 。 根据 这 一 策略 , 按照 经 验 风 险 最 小 化 求 最 优 模型 就 是 
求解 最 优化 问题 : x 
x | 
pip y LH fled) (1.15) 


其 中 , F 是 假设 空间 。 

当 样本 容量 足够 大 时 ,经 验 风险 最 小 化 能 保证 有 很 好 的 学 习 效果 , 在 现实 中 被 广 
泛 采 用 。 比 如 , 极 大 似 然 估计 (maximum likelihood estimation) 就 是 经 验 风 险 最 小 
化 的 一 个 例子 。 当 模型 是 条 件 概 率 分 布 、 损失 函 数 是 对 数 损失 函数 时 , 经 验 风 险 最 小 
化 就 等 价 于 极 大 似 然 估计 。 

但 是 , 当 样 本 容量 很 小 时 , 经 验 风险 最 小 化 学 习 的 效果 就 未 必 很 好 , 会 产生 “过 拟 
合 ”(over-fitting) 现象 。 

结构 风险 最 小 化 (structural risk minimization, SRM) 是 为 了 防止 过 拟 合 而 提出 
来 的 策略 。 结构 风 险 最 小 化 等 价 于 正则 化 (regularization)。 结 构 风 险 在 经 验 风险 上 加 
上 表示 模型 复杂 度 的 正则 化 项 (regularizer) 或 罚 项 (penalty term) 。 在 假设 空间 、 损 
失 函 数 以 及 训练 数据 集 确定 的 情况 下 ,结构 风险 的 定义 是 : 


N 
Rarm(F) = ay D Lui Flas) + (A) (1.16) 
t=1 
其 中 JS) 为 模型 的 复杂 度 , 是 定义 在 假设 空间 F 上 的 泛 函 。 模 型 f 越 复 杂 , 复杂 度 
J(f) 就 越 大 ; 反之 ,模型 f 越 简单 , 复杂 度 JS) 就 越 小 。 也 就 是 说 , 复杂 度 表 示 了 对 
复杂 模型 的 惩罚 。 A > 0 是 系数 , 用 以 权衡 经 验 风险 和 模型 复杂 度 。 结构 风险 小 需要 经 
验 风险 与 模型 复杂 度 同时 小 。 结构 风 险 小 的 模型 往往 对 训练 数据 以 及 未 知 的 测试 数据 
都 有 较 好 的 预测 。 
比如 ， 贝 叶 斯 估计 中 的 最 大 后 验 概率 估计 (maximum posterior probability esti- 
mation, MAP) 就 是 结构 风险 最 小 化 的 一 个 例子 。 当 模型 是 条 件 概率 分 布 、 损 失 函 数 
是 对 数 损失 函数 、 模 型 复杂 度 由 模型 的 先 验 概率 表示 时 , 结构 风险 最 小 化 就 等 价 于 最 
大 后 验 概率 估计 。 
结构 风险 最 小 化 的 策略 认为 结构 风险 最 小 的 模型 是 最 优 的 模型 。 所 以 求 最 优 模 
型 ,就 是 求解 最 优化 问题 : 


N 
min 5 Hs fled) HAJU) (1.17) 
i=1 
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这 样 , 监督 学 习 问题 就 变 成 了 经 验 风险 或 结构 风险 函数 的 最 优化 问题 (1.15) 和 
(1.17)。 这 时 经 验 或 结构 风险 函数 是 最 优化 的 目标 函数 。 


1.3.3 ”算法 


算法 是 指 学 习 模 型 的 具体 计算 方法 。 统 计 学 习 基 于 训练 数据 集 ， 根 据 学 习 策略 ， 
从 假设 空间 中 选择 最 优 模型 ， 最 后 需要 考虑 用 什么 样 的 计算 方法 求解 最 优 模 型 。 

这 时 , 统计 学 习 问题 归结 为 最 优化 问题 , 统计 学 习 的 算法 成 为 求解 最 优化 问题 的 
算法 。 如 果 最 优化 问题 有 显 式 的 解析 解 ， 这 个 最 优化 问题 就 比较 简单 。 但 通常 解析 解 
不 存在 ， 这 就 需要 用 数值 计算 的 方法 求解 。 如 何 保 证 找到 全 局 最 优 解 ， 并 使 求解 的 过 
程 非常 高 效 , 就 成 为 一 个 重要 问题 。 统计 学 习 可 以 利用 已 有 的 最 优化 算法 ， 有 时 也 需 
要 开发 独自 的 最 优化 算法 。 

统计 学 习 方 法 之 间 的 不 同 , 主要 来 自 其 模型 、 策略、 算法 的 不 同 。 确定 了 模型 、 策 
略 、 算 法 ,统计 学 习 的 方法 也 就 确定 了 。 这 就 是 将 其 称 为 统计 学 习 方法 三 要 素 的 原因 。 
以 下 介绍 监督 学 习 的 几 个 重要 概念 。 
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1.4.1 训练 误差 与 测试 误差 


统计 学 习 的 目的 是 使 学 到 的 模型 不 仅 对 已 知 数据 而 且 对 未 知 数据 都 能 有 很 好 的 
预测 能 力 。 不同 的 学 习 方 法 会 给 出 不 同 的 模型 。 当 损失 函数 给 定时 , 基于 损失 函数 的 
模型 的 训练 误差 (training error) 和 模型 的 测试 误差 (test error) 就 自然 成 为 学 习 方 
法 评估 的 标准 。 注意, 统计 学 习 方法 具体 采用 的 损失 函数 未 必 是 评估 时 使 用 的 损失 函 
数 。 当 然 , 让 两 者 一 致 是 比较 理想 的 。 

假设 学 习 到 的 模型 是 Y = f(X) 训练 误差 是 模型 Y = f(X) 关于 训练 数据 集 的 
平均 损失 : 


N 
Remp(f) = SE Ln fe) (1.18) 
i=1 


其 中 N 是 训练 样本 容量 。 
测试 误差 是 模型 Y = f(X) 关于 测试 数据 集 的 平均 损失 : 


i = z 
etest = N > Llu; f(xi)) (1.19) 


i=1 


其 中 N 是 测试 样本 容量 。 
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例如 ， 当 损失 函数 是 0-1 损失 时 ,测试 误差 就 变 成 了 常见 的 测试 数据 集 上 的 误差 


率 (error rate) : 


crest = TH Tw # f(z) (1.20) 
i=l 


这 里 了 是 指示 函数 (indicator function) , Bl y 关 f(x) 时 为 1, 否则 为 0。 
相应 地 , 常见 的 测试 数据 集 上 的 准确 率 (accuracy) 为 


L% A 
Ttest = W D I(yi = f(z:)) (1.21) 
i=1 


Ttest + etest = 1 


训练 误差 的 大 小 , 对 判断 给 定 的 问题 是 不 是 一 个 容易 学 习 的 问题 是 有 意义 的 , 但 
本 质 上 不 重要 。 测试 误差 反映 了 学 习 方法 对 未 知 的 测试 数据 集 的 预测 能 力 ,是 学 习 中 
的 重要 概念 。 显然 , 给 定 两 种 学 习 方法 , 测试 误差 小 的 方法 具有 更 好 的 预测 能 力 ， 是 
更 有 效 的 方法 。 通常 将 学 习 方法 对 未 知 数据 的 预测 能 力 称 为 泛 化 能 力 (generalization 
ability) ， 这 个 问题 将 在 1.6 节 继 续 论述 。 


14.2 ”过 拟 合 与 模型 选择 


当 假 设 空间 含有 不 同 复杂 度 (例如 , 不 同 的 参数 个 数 ) 的 模型 时 , 就 要 面临 模型 选 
择 (model selection) 的 问题 。 我 们 希望 选择 或 学 习 一 个 合适 的 模型 。 如 果 在 假设 空间 
中 存在 “ 真 ” 模型 ,那么 所 选择 的 模型 应 该 逼近 真 模型 。 具 体 地 , 所 选择 的 模型 要 与 真 
模型 的 参数 个 数 相同 ,所 选择 的 模型 的 参数 向 量 与 真 模型 的 参数 向 量 相近 。 

如 果 一 味 追 求 提高 对 训练 数据 的 预测 能 力 ， 所 选 模型 的 复杂 度 则 往往 会 比 真 模型 
更 高 。 这 种 现象 称 为 过 拟 合 (over-fitting) 。 过 拟 合 是 指 学 习 时 选择 的 模型 所 包含 的 参 
数 过 多 ， 以 至 出 现 这 一 模型 对 已 知 数据 预测 得 很 好 , 但 对 未 知 数据 预测 得 很 差 的 现象 。 
可 以 说 模型 选择 旨 在 避免 过 拟 合并 提高 模型 的 预测 能 力 。 

下 面 , 以 多 项 式 函 数 拟 合 问题 为 例 , 说 明 过 拟 合 与 模型 选择 。 这 是 一 个 回归 问题 。 

例 1.1 假设 给 定 一 个 训练 数据 集 @ : 


T = {(21, 91), (v2, ya) , (TN, YN)} 


其 中 , zi E R 是 输入 z 的 观测 值 , w c R 是 相应 的 输出 y 的 观测 值 , i = 1,2,---, Ne 
© 本 例 来 自 参考 文献 [2]。 
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多 项 式 函数 拟 合 的 任务 是 假设 给 定数 据 由 M 次 多 项 式 函 数 生成 , 选择 最 有 可 能 产生 
这 些 数据 的 M 次 多 项 式 函 数 , 即 在 M 次 多 项 式 函 数 中 选择 一 个 对 已 知 数据 以 及 未 知 
数据 都 有 很 好 预测 能 力 的 函数 。 

假设 给 定 如 图 1.8 所 示 的 10 个 数据 点 , 用 0 ~ 9 次 多 项 式 函 数 对 数据 进行 拟 合 。 
图 中 画 出 了 需要 用 多 项 式 函数 曲线 拟 合 的 数据 。 


图 1.8 M 次 多 项 式 函数 拟 合 问题 的 例子 


设 M 次 多 项 式 为 


M 
fu(a,w) = wo + wit + wet? +--+» + wy! = wir’ (1.22) 
j=0 
AP r 是 单 变量 输入 , wow, ,wm 是 M 十 1 个 参数 。 
解决 这 一 问题 的 方法 可 以 是 这 样 的 。 首先 确定 模型 的 复杂 度 ， 即 确定 多 项 式 的 次 
数 ; 然后 在 给 定 的 模型 复杂 度 下 , 按照 经 验 风险 最 小 化 的 策略 , 求解 参数 , 即 多 项 式 的 
AM. 具体 地 , 求 以 下 经 验 风险 最 小 化 : 


1 N 
L(w) = 5 0 (f(z) — vi)? (1.23) 


这 时 , 损失 函数 为 平方 损失 ， 系数 3 是 为 了 计算 方便 。 
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这 是 一 个 简单 的 最 优化 问题 。 将 模型 与 训练 数据 代入 式 (1.23) H, 有 


1 N M . s 
L(w) = oo X wal -yi 
i=1 \j=0 


这 一 问题 可 用 最 小 二 乘法 求 得 拟 合 多 项 式 系数 的 唯一 解 ， 记 作 wg, wi, =, wie K 
解 过 程 这 里 不 予 叙述 ,读者 可 参阅 有 关 材 料 。 


图 1.8 给 出 了 M=0, M=1l,M=3 及 M=9 时 多 项 式 函 数 拟 合 的 情况 。 如 果 
AM = 0, 多 项 式 曲 线 是 一 个 常数 , 数据 拟 合 效果 很 差 。 如 果 M = 1, 多 项 式 曲线 是 一 
条 直线 ,数据 拟 合 效果 也 很 差 。 相反 , WR M = 9, 多 项 式 曲 线 通 过 每 个 数据 点 , 训练 
误差 为 0。 从 对 给 定 训练 数据 拟 合 的 角度 来 说 , 效果 是 最 好 的 。 但是， 因为 训练 数据 本 
身 存 在 噪声 , 这 种 拟 合 曲线 对 未 知 数 据 的 预测 能 力 往往 并 不 是 最 好 的 , 在 实际 学 习 中 
并 不 可 取 。 这 时 过 拟 合 现象 就 会 发 生 。 这 就 是 说 , 模型 选择 时 , 不 仅 要 考虑 对 已 知 数 
据 的 预测 能 力 , 而 且 还 要 考虑 对 未 知 数据 的 预测 能 力 。 当 M = 3 时 , 多项式 曲 线 对 训 
练 数据 拟 合 效果 足够 好 , 模型 也 比较 简单 ， 是 一 个 较 好 的 选择 。 E 


在 多 项 式 函 数 拟 合 中 可 以 看 到 , 随 着 多 项 式 次 数 (模型 复杂 度 ) 的 增加 , 训练 误差 
会 减 小 , 直至 趋向 于 0, 但 是 测试 误差 却 不 如 此 ， 它 会 随 着 多 项 式 次 数 〈 模 型 复杂 度 ) 
的 增加 先 减 小 而 后 增 大 。 而 最 终 的 目的 是 使 测试 误差 达到 最 小 。 这样, 在 多 项 式 函数 
MEF, 就 要 选择 合适 的 多 项 式 次 数 ， 以 达到 这 一 目的 。 这 一 结论 对 一 般 的 模型 选择 
也 是 成 立 的 。 

图 1.9 描述 了 训练 误差 和 测试 误差 与 模型 的 复杂 度 之 间 的 关系 。 当 模型 的 复杂 度 
增 大 时 ,训练 误差 会 逐渐 减 小 并 趋向 于 0; 而 测试 误差 会 先 减 小 , 达到 最 小 值 后 又 增 
大 。 当 选择 的 模型 复杂 度 过 大 时 ,， 过 拟 合 现象 就 会 发 生 。 这样， 在 学 习 时 就 要 防止 过 


测试 误差 


预测 误差 


训练 误差 


模型 复杂 度 
图 1.9 ”训练 误差 和 测试 误差 与 模型 复杂 度 的 关系 
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拟 合 ,进行 最 优 的 模型 选择 , 即 选择 复杂 度 适 当 的 模型 ,以 达到 使 测试 误差 最 小 的 学 
习 目 的 。 下 面 介绍 两 种 常用 的 模型 选择 方法 : 正则 化 与 交叉 验证 。 


1.5 正则 化 与 交叉 验证 


1.5.1 正则 化 


模型 选择 的 典型 方法 是 正则 化 (regularization) 。 正 则 化 是 结构 风险 最 小 化 策略 
的 实现 , 是 在 经 验 风 险 上 加 一 个 正则 化 项 (regularizer〉 或 罚 项 (penalty term) 。 正 
则 化 项 一 般 是 模型 复杂 度 的 单调 递增 函数 , 模型 越 复杂 , 正则 化 值 就 越 大 。 比如, 正则 
化 项 可 以 是 模型 参数 向 量 的 范 数 。 
正则 化 一 般 具 有 如 下 形式 : 


N 


DA HAJ) (1.24) 


其 中 , 第 1 项 是 经 验 风 险 , 第 2 项 是 正则 化 项 , 和 > 0 为 调整 两 者 之 间 关 系 的 系数 。 
正则 化 项 可 以 取 不 同 的 形式 。 例如, 回归 问题 中 , 损失 函数 是 平方 损失 , 正则 化 项 
可 以 是 参数 向 量 的 Do WH: 


1 x 2 A 2 
Lw) = 5 (Fes) — v)? + Zilol (1.25) 


这 里 , jw] 表示 参数 向 量 w 的 Lo 范 数 。 
正则 化 项 也 可 以 是 参数 向 量 的 Ly 范 数 : 


N 
Lw) = $E esw) - y)? + Moll (1.26) 
i=1 


这 里 , jjwlli 表示 参数 向 量 w 的 Ly 范 数 。 

第 1 项 的 经 验 风险 较 小 的 模型 可 能 较 复杂 (有 多 个 非 零 参数 ), 这 时 第 2 项 的 模 
型 复杂 度 会 较 大 。 正则 化 的 作用 是 选择 经 验 风 险 与 模型 复杂 度 同 时 较 小 的 模型 。 

正则 化 符合 奥 卡 姆 剃刀 (Occam's razor) 原理 。 奥 卡 姆 剃刀 原理 应 用 于 模型 选择 
时 变 为 以 下 想法 : 在 所 有 可 能 选择 的 模型 中 ,能 够 很 好 地 解释 已 知 数据 并 且 十 分 简单 
才 是 最 好 的 模型 ， 也 就 是 应 该 选择 的 模型 。 从 贝 叶 斯 估计 的 角度 来 看 ,正则 化 项 对 应 
于 模型 的 先 验 概率 。 可 以 假设 复杂 的 模型 有 较 小 的 先 验 概率 , 简单 的 模型 有 较 大 的 先 
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1.5.2 ”交叉 验证 


另 一 种 常用 的 模型 选择 方法 是 交叉 验证 (cross validation) 。 

如 果 给 定 的 样本 数据 充足 ， 进 行 模型 选择 的 一 种 简单 方法 是 随机 地 将 数据 集 切 
分 成 三 部 分 , 分 别 为 训练 集 (training set) 、 验 证 集 (validation set) 和 测试 集 (test 
set) 。 训 练 集 用 来 训练 模型 ,验证 集 用 于 模型 的 选择 , 而 测试 集 用 于 最 终 对 学 习 方 法 
的 评估 。 在 学 习 到 的 不 同 复杂 度 的 模型 中 , 选择 对 验证 集 有 最 小 预测 误差 的 模型 。 由 
于 验证 集 有 足够 多 的 数据 , 用 它 对 模型 进行 选择 也 是 有 效 的 。 

但 是 , 在 许多 实际 应 用 中 数据 是 不 充足 的 。 为 了 选择 好 的 模型 ， 可 以 采用 交叉 验 
证 方法 。 交 叉 验 证 的 基本 想法 是 重复 地 使 用 数据 ; 把 给 定 的 数据 进行 切 分 , 将 切 分 的 
数据 集 组 合 为 训练 集 与 测试 集 , 在 此 基础 上 反复 地 进行 训练 、 测 试 以 及 模型 选择 。 

1. 简单 交叉 验证 

简单 交叉 验证 方法 是 : 首先 随机 地 将 已 给 数据 分 为 两 部 分 ,一 部 分 作为 训练 集 ， 
另 一 部 分 作为 测试 集 (例如 ，70% 的 数据 为 训练 集 ，30% 的 数据 为 测试 集 ); 然后 用 训 
练 集 在 各 种 条 件 下 (例如 , 不 同 的 参数 个 数 ) 训练 模型 ， 从 而 得 到 不 同 的 模型 ; 在 测试 
集 上 评价 各 个 模型 的 测试 误差 , 选 出 测试 误差 最 小 的 模型 。 

2. S 折 交 叉 验证 

应 用 最 多 的 是 S 折 交 又 验证 (5-fold cross validation)， 方 法 如 下 : 首先 随机 地 将 
已 给 数据 切 分 为 S 个 互 不 相交 、 大 小 相同 的 子 集 ; 然后 利用 S - 1 个 子 集 的 数据 训练 
模型 , 利用 余下 的 子 集 测试 模型 ; 将 这 一 过 程 对 可 能 的 5 种 选择 重复 进行 ; 最 后 选 出 
5 次 评测 中 平均 测试 误差 最 小 的 模型 。 

3. 留 一 交叉 验证 

S 折 交 叉 验证 的 特殊 情形 是 3 = N， 称 为 留 一 交叉 验证 (leave-one-out cross 
validation) , 往往 在 数据 缺乏 的 情况 下 使 用 。 这 里 ，N 是 给 定数 据 集 的 容量 。 


16 泛 化 能 力 


1.6.1 泛 化 误差 


学 习 方 法 的 泛 化 能 力 (generalization ability) 是 指 由 该 方法 学 习 到 的 模型 对 未 知 
数据 的 预测 能 力 ， 是 学 习 方 法 本 质 上 重要 的 性 质 。 现 实 中 采用 最 多 的 办 法 是 通过 测试 
误差 来 评价 学 习 方 法 的 泛 化 能 力 。 但 这 种 评价 是 依赖 于 测试 数据 集 的 。 因 为 测试 数据 
集 是 有 限 的 , 很 有 可 能 由 此 得 到 的 评价 结果 是 不 可 靠 的 。 统计 学 习 理 论 试图 从 理论 上 
对 学 习 方 法 的 泛 化 能 力 进行 分 析 。 
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首先 给 出 泛 化 误差 的 定义 。 如果 学 到 的 模型 是 户 那么 用 这 个 模型 对 未 知 数据 预 
测 的 误差 即 为 泛 化 误差 (generalization error) : 


Rexp(f) = Ep[L(Y, f(X))] 
= Í L(y, f(z))P(z,y)drdy (1.27) 
XY 
泛 化 误差 反映 了 学 习 方法 的 泛 化 能 力 , 如果 一 种 方法 学 习 的 模型 比 另 一 种 方法 学 


的 模型 具有 更 小 的 泛 化 误差 , 那么 这 种 方法 就 更 有 效 。 事 实 上 , 泛 化 误差 就 是 所 学 
到 的 模型 的 期 望 风险 。 


àd 


àd 


1.6.2 ” 泛 化 误差 上 界 


学 习 方法 的 泛 化 能 力 分 析 往 往 是 通过 研究 泛 化 误差 的 概率 上 界 进行 的 , 简称 为 泛 
化 误差 上 界 (generalization error bound) 。 具 体 来 说 , 就 是 通过 比较 两 种 学 习 方法 的 
泛 化 误差 上 界 的 大 小 来 比较 它们 的 优 劣 。 泛 化 误差 上 界 通常 具有 以 下 性 质 : 它 是 样本 
容量 的 函数 ， 当 样本 容量 增加 时 , 泛 化 上 界 趋 于 0; 它 是 假设 空间 容量 (capacity) 的 
函数 , 假设 空间 容量 越 大 , 模型 就 越 难 学 , 泛 化 误差 上 界 就 越 大 。 

下 面 给 出 一 个 简单 的 泛 化 误差 上 界 的 例子 : 二 类 分 类 问题 的 泛 化 误差 上 界 。 


考虑 二 类 分 类 问题 。 已 知 训练 数据 集 卫 = {(1, y1), (22,92), (EN yN) N 是 
样本 容量 , T 是 从 联合 概率 分 布 P(X, Y) 独立 同 分 布 产生 的 , X eR”, Y € {-1,41}. 
假设 空间 是 函数 的 有 限 集合 F = {f fo fabs d 是 函数 个 数 。 Kf EMF 中 选取 
的 函数 。 损 失 函 数 是 0-1 损失 。 关 于 f 的 期 望 风 险 和 经 验 风险 分 别 是 


R(f) = EIL(Y, f(X))] (1.28) 
过 
RA) = yD Ty S) (1.29) 
i=1 
经 验 风险 最 小 化 函数 是 
fy = arg min R(f) (1.30) 


fn 依赖 训练 数据 集 的 样本 容量 N。 人 们 更 关心 的 是 fy 的 泛 化 能 力 
R(fn) = ELL(Y, fn(X))] (1.31) 


下 面 讨论 从 有 限 集合 F = (fi, fo,… , fa} 中 任意 选 出 的 函数 f 的 泛 化 误差 上 界 。 
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定理 1.1 ( 泛 化 误差 上 界 ) ”对 二 类 分 类 问题 ， 当 假设 空间 是 有 限 个 函数 的 集合 
F={hi, f2,… ,fa} 时 ， 对 任意 一 个 函数 GCF, 至少 以 概率 1 一 6, 0 <5<1, 以 下 
不 等 式 成 立 : 
R(f) < R(f) +(d,N, 6) (1.32) 
其 中 ， 


e(d, N,6) = x (iga + log 3) (1.33) 


不 等 式 (1.32) 左 端 R(f) 是 泛 化 误差 , 右 端 即 为 泛 化 误差 上 界 。 在 泛 化 误差 上 界 
H, 第 1 项 是 训练 误差 ,训练 误差 越 小 , 泛 化 误差 也 越 小 。 第 2 项 e(d, NN,6) 是 的 
单调 递减 函数 ， 当 入 趋 于 无 穷 时 趋 于 0; 同时 它 也 是 vigd 阶 的 函数 ,假设 空间 F 
包含 的 函数 越 多 , 其 值 越 大 。 


证 明 ”在 证 明 中 要 用 到 Hoeffding 不 等 式 , 先 叙 述 如 下 。 


Be Xi, X2,.… ,XN iar AX: € [aibi i = 1,2,---,N; X Æ 
X1,X2，,… ,XN 的 经 验 均值 , BX = — Ly 则 对 任意 t > 0, 以 下 不 等 式 成 立 : 


i=1 


2N?t? 


P[X — E(X) >t] < exp] 一 N (1.34) 
> Qi — ai)? 
i=1 
eS 2N2t2 
P[E(X) — X > t] < exp | -=———_ (1.35) 
> (bi — ai)? 


i=1 


Hoeffding 不 等 式 的 证 明 省 略 了 , 这 里 用 来 推导 泛 化 误差 上 界 。 


对 任意 函数 fe F, R(f) 是 NN 个 独立 的 随机 变量 L(Y, f(X)) 的 样本 均值 , R(f) 
是 随机 变量 L(Y, f(X)) 的 期 望 值 。 如 果 损 失 函 数 取 值 于 区 间 [0,1]， 即 对 所 有 
is [aibi] = [0,1], 那么 由 Hoeffding 不 等 式 (1.35) 不 难得 知 , 对 e > 0， 以 下 不 等 
式 成 立 : 


P(R(f) — R(f) > £) < exp(—2Ne?) (1.36) 


HF F= {fi, f2 ,fa} 是 一 个 有 限 集合 ， 故 
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Pf € F : Rf) — ÊC) > €) = P( U (RU) - Rf) > e}) 


FEF 


< > P(R(F) - R(f) > £) 


JEF 
< dexp(—2Ne?) 


或 者 等 价 的 , IEE SEF, 有 
P(R(f) — R(f) < £) > 1 — dexp(—2Ne?) (1.37) 


cd 
6 = dexp(—2Ne?) (1.38) 


则 
P(R(f) < R(f) +2) 21-6 
即 至 少 以 概率 1- 5 有 R(f) < Rif) +e, 其 中 = 由 式 (1.38) 得 到 , 即 为 式 (1.33). m 
从 泛 化 误差 上 界 可 知 ， 
R(fy) < R( fv) + e(d, N,6) (1.39) 


其 中 , e(d, NN, 6) HI (1.33) EX, fy 由 式 (1.30) 定义 。 
以 上 讨论 的 只 是 假设 空间 包含 有 限 个 函数 情况 下 的 泛 化 误差 上 界 , 对 一 般 的 假设 
空间 要 找到 泛 化 误差 界 就 没有 这 么 简单 , 这 里 不 作 介绍 。 


1.7 ”生成 模型 与 判别 模型 


监督 学 习 的 任务 就 是 学 习 一 个 模型 ,应 用 这 一 模型 , 对 给 定 的 输入 预测 相应 的 输 
出 。 这 个 模型 的 一 般 形 式 为 决策 函数 : 


Y = f(X) 
或 者 条 件 概率 分 布 : 
P(Y|X) 


监督 学 习 方法 又 可 以 分 为 生成 方法 (generative approach) 和 判别 方法 (discrimina- 
tive approach) 。 所 学 到 的 模型 分 别称 为 生成 模型 (generative model) 和 判别 模 


型 (discriminative model) 。 
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生成 方法 由 数据 学 习 联合 概率 分 布 P(X,Y), 然后 求 出 条 件 概 率 分 布 P(Y|X) 作 
为 预测 的 模型 ， 即 生成 模型 ; 


P(X,Y) 


PCPO = S 


(1.40) 


这 样 的 方法 之 所 以 称 为 生成 方法 ,是 因为 模型 表示 了 给 定 输入 X 产生 输出 Y 的 生成 
关系 。 典 型 的 生成 模型 有 朴素 贝 叶 斯 法 和 隐 马 尔 可 夫 模型 ， 将 在 后 面 章节 进行 相关 
讲述 。 

判别 方法 由 数据 直接 学 习 决 策 函 数 (X) 或 者 条 件 概率 分 布 P(Y|X) 作为 预测 的 
模型 ， 即 判别 模型 。 判 别 方法 关心 的 是 对 给 定 的 输入 和 ,应 该 预测 什么 样 的 输出 了 。 
典型 的 判别 模型 包括 : ke 近邻 法 、 感知 机 、 决 策 树 、 逻 辑 斯 谤 回归 模型 、 最 大 粹 模型 、 
支持 向 量 机 、 提升 方 法 和 条 件 随机 场 等 , 将 在 后 面 章 节 讲 述 。 
在 监督 学 习 中 ， 生 成 方法 和 判别 方法 各 有 优 缺 点 ,适合 于 不 同 条 件 下 的 学 习 
问题 。 

生成 方法 的 特点 : 生成 方法 可 以 还 原 出 联合 概率 分 布 P(X,Y), 而 判别 方法 则 不 
能 ; 生成 方法 的 学 习 收 敛 速度 更 快 , 即 当 样本 容量 增加 的 时 候 , 学 到 的 模型 可 以 更 快 
地 收敛 于 真实 模型 ， 当 存在 隐 变 量 时 , 仍 可 以 用 生成 方法 学 习 ， 此 时 判别 方法 就 不 
能 用 。 

判别 方法 的 特点 : 判别 方法 直接 学 习 的 是 条 件 概率 P(Y|X) 或 决策 函数 F(X) 
直接 面 对 预测 , 往往 学 习 的 准确 率 更 高 ; 由 于 直接 学 习 P(Y|X) 或 A(X) 可 以 对 数据 
进行 各 种 程度 上 的 抽象 、 定 义 特征 并 使 用 特征 , 因此 可 以 简化 学 习 问 题 。 


18 监督 学 习 应 用 


监督 学 习 的 应 用 主要 在 三 个 方面 : 分 类 问题 、 标 注 问 题 和 回归 问题 。 


18.1 分 类 问题 


分 类 是 监督 学 习 的 一 个 核心 问题 。 在 监督 学 习 中 ， 当 输出 变量 Y 取 有 限 个 离散 
值 时 , 预测 问题 便 成 为 分 类 问题 这 时 , 输入 变量 X 可 以 是 离散 的 , 也 可 以 是 连续 
的 。 监 督学 习 从 数据 中 学 习 一 个 分 类 模型 或 分 类 决策 函数 , 称 为 分 类 器 Classifier) o 
分 类 器 对 新 的 输入 进行 输出 的 预测 ， 称 为 分 类 (classification) 。 可 能 的 输出 称 为 类 
别 (class) 。 分 类 的 类 别 为 多 个 时 ， 称 为 多 类 分 类 问题 。 本 书 主要 讨论 二 类 分 类 问题 。 
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分 类 问题 包括 学 习 和 分 类 两 个 过 程 。 在 学 习 过 程 中 , 根据 已 知 的 训练 数据 集 利用 
有 效 的 学 习 方 法 学 习 一 个 分 类 器 ; 在 分 类 过 程 中 , 利用 学 习 的 分 类 器 对 新 的 输入 实例 
进行 分 类 。 分 类 问题 可 用 图 1.10 描述 。 图 中 (21,91), (22,2), (tn, yn) 是 训练 数 
HE, 学 习 系统 由 训练 数据 学 习 一 个 分 类 器 P(Y|X) RY = f(X); 分 类 系统 通过 学 
到 的 分 类 器 P(Y|X) RY = f(X) 对 于 新 的 输入 实例 zw+l 进行 分 类 , 即 预测 其 输出 
的 类 标记 yn 16 


11): @2V2) "(XN YN) 


一 一 一 | 学 习 系 统 


Y=f(X) 
PY |X) 
YN+1 


一 一 一 >| 分 类 系统 


图 1.10 ”分 类 问题 


评价 分 类 器 性 能 的 指标 一 般 是 分 类 准确 率 (accuracy), HENE: 对 于 给 定 的 测 
试 数据 集 , 分 类 器 正确 分 类 的 样本 数 与 总 样本 数 之 比 。 也 就 是 损失 函数 是 0-1 损失 时 
测试 数据 集 上 的 准确 率 ( 见 式 (1.21))。 

对 于 二 类 分 类 问题 常用 的 评价 指标 是 精确 率 (precision) 与 召回 率 (recall)。 通常 
以 关注 的 类 为 正 类 , 其 他 类 为 负 类 , 分 类 器 在 测试 数据 集 上 的 预测 或 正确 或 不 正确 , 4 
种 情况 出 现 的 总 数 分 别 记 作 : 

TP 一 一 将 正 类 预测 为 正 类 数 ; 

FN 一 一 将 正 类 预测 为 负 类 数 ; 

FP 一 一 将 负 类 预测 为 正 类 数 ; 

TN 一 一 将 负 类 预测 为 负 类 数 。 


io 


P= TP FF (1.41) 
召回 率 定义 为 Tp 

R= PLTN (1.42) 
此 外 , 还 有 F 值 , 是 精确 率 和 召回 率 的 调和 均值 ， 即 

eloi (as) 
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2TP 
1 2TP+FP+FN 
精确 率 和 召回 率 都 高 时 ,五 值 也 会 高 。 
许多 统计 学 习 方 法 可 以 用 于 分 类 , 包括 大 近邻 法 、 感 知 机 、 朴 素 贝 叶 斯 法 、 决 
策 树 、 决 策 列表 、 逻 辑 斯 说 回归 模型 、 支 持 向 量 机 、 提 升 方法 、 贝 叶 斯 网 络 、 神 经 网 
络 、Winnow 等 。 本 书 将 讲述 其 中 一 些 主要 方法 。 
分 类 在 于 根据 其 特性 将 数据 “分 门 别 类 ”， 所 以 在 许多 领域 都 有 广泛 的 应 用 。 例 
wm, 在 银行 业务 中 , 可 以 构建 一 个 客户 分 类 模型 ,对 客户 按照 贷款 风险 的 大 小 进行 分 
类 ; 在 网 络 安全 领域 , 可 以 利用 日 志 数 据 的 分 类 对 非法 入 侵 进行 检测 ; 在 图 像 处 理 中 ， 
分 类 可 以 用 来 检测 图 像 中 是 否 有 人 脸 出 现 ; 在 手写 识别 中 , 分 类 可 以 用 于 识别 手写 的 
数字 ; 在 互联 网 搜索 中 , 网 页 的 分 类 可 以 帮助 网 页 的 抓 取 、 索 引 与 排序 。 
举 一 个 分 类 应 用 的 例子 —— 文本 分 类 (text classification)。 这 里 的 文本 可 以 是 新 
闻 报 道 、 网 页 、 电 子 邮 件 、 学 术 论 文 等 。 类 别 往往 是 关于 文本 内 容 的 , 例如 政治 、 经 济 、 
体育 等 ; 也 有 关于 文本 特点 的 , 如 正面 意见 、 反面 意见 ; 还 可 以 根据 应 用 确定 ， 如 垃圾 
邮件 、 非 垃圾 邮件 等 。 文本 分 类 是 根据 文本 的 特征 将 其 划分 到 已 有 的 类 中 。 输 入 是 文 
本 的 特征 向 量 , 输出 是 文本 的 类 别 。 通常 把 文本 中 的 单词 定义 为 特征 , 每 个 单词 对 应 
一 个 特征 。 单词 的 特征 可 以 是 二 值 的， 如 果 单 词 在 文本 中 出 现 则 取 值 是 1, 否则 是 0; 
也 可 以 是 多 值 的 , 表示 单词 在 文本 中 出 现 的 频率 。 直观 地 ， 如果“ 股票 "” “银行 ”“ 货 
币 ” 这 些 词 出 现 很 多 , 这 个 文本 可 能 属于 经 济 类 ; 如 果 “ 网 球 ”“ 比 赛 ”“ 运 动员 ”这 些 
词 频繁 出 现 , 这 个 文本 可 能 属于 体育 类 。 


(1.44) 


1.8.2 标注 问题 


标注 (tagging) 也 是 一 个 监督 学 习 问 题 。 可 以 认为 标注 问题 是 分 类 问题 的 一 个 推 
广 , 标注 问题 又 是 更 复杂 的 结构 预测 (structure prediction) 问题 的 简单 形式 。 标注 问 
题 的 输入 是 一 个 观测 序列 , 输出 是 一 个 标记 序列 或 状态 序列 。 标注 问题 的 目标 在 于 学 
习 一 个 模型 ,使 它 能 够 对 观测 序列 给 出 标记 序列 作为 预测 。 注意 , 可 能 的 标记 个 数 是 
有 限 的 , 但 其 组 合 所 成 的 标记 序列 的 个 数 是 依 序列 长 度 呈 指数 级 增长 的 。 

标注 问题 分 为 学 习 和 标注 两 个 过 程 (如 图 1.11 所 示 )。 首 先 给 定 一 个 训练 数据 集 


T = {(21, 91), (v2, Y2); , (TN, yw) } 


BL, 2, =(2,0,..,0M)T, 1=1,2,---,N, FAARWE yi =P, yP, 


yT 是 相应 的 输出 标记 序列 ; n 是 序列 的 长 度 , 对 不 同样 本 可 以 有 不 同 的 值 。 学习 
系统 基于 训练 数据 集 构建 一 个 模型 , 表示 为 条 件 概率 分 布 : 
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a 


P(YY, Y,- YOOX, xO,- , X) 


这 里 ， 每 一 个 XGO (i = 1,2,… ,n) 取 值 为 所 有 可 能 的 观测 ， 每 一 个 YG (i = 
1,2,… ,m) 取 值 为 所 有 可 能 的 标记 , 一 般 n < N. 标注 系统 按照 学 习 得 到 的 条 件 概率 
分 布 模型 ， 对 新 的 输入 观测 序列 找到 相应 的 输出 标记 序列 。 具 体 地 ， 对 一 个 观测 序列 
DN+1 =e o a j sepa)? 找到 使 条 件 概率 Pa = shea) ena 


2 a 2 
tO ye jo) 1)T) 最 大 的 标记 序列 yny = CORRE EE Ys 


(X,Y (2,92) yy) 


一 一 一 | 学 习 系统 


Y=f(X) 


PYY|X) 
YN+1 


Xy+ 


标注 系统 


图 1.11 标注 问题 


评价 标注 模型 的 指标 与 评价 分 类 模型 的 指标 一 样 ， 常 用 的 有 标注 准确 率 、 精 确 率 
和 召回 率 。 其 定义 与 分 类 模型 相同 。 

标注 常用 的 统计 学 习 方 法 有 : 隐 马 尔 可 夫 模 型 、 条 件 随机 场 。 

标注 问题 在 信息 抽取 、 自 然 语 言 处 理 等 领域 被 广泛 应 用 , 是 这 些 领 域 的 基本 问题 。 
例如 ,自然 语言 处 理 中 的 词性 标注 (part of speech tagging) 就 是 一 个 典型 的 标注 问 
题 : 给 定 一 个 由 单词 组 成 的 句子 , 对 这 个 句子 中 的 每 一 个 单词 进行 词性 标注 ， 即 对 一 
个 单词 序列 预测 其 对 应 的 词性 标记 序列 。 

举 一 个 信息 抽取 的 例子 。 从 英文 文章 中 抽取 基本 名 词 短语 (base noun phrase)。 
为 此 , 要 对 文章 进行 标注 。 英文 单词 是 一 个 观测 , 英文 句子 是 一 个 观测 序列 , 标记 表示 
名 词 短 语 的 “开始 ”、“ 结 束 ” 或 “其 他 ”( 分 别 以 B, E, O RR), 标记 序列 表示 英文 句 
子 中 基本 名 词 短 语 的 所 在 位 置 。 信息 抽取 时 , 将 标记 “开始 ”到 标记 “结束 ”的 单词 作 
为 名 词 短 语 ,。 例如 , 给 出 以 下 的 观测 序列 ， 即 英文 句子 , 标注 系统 产生 相应 的 标记 序 
列 , 即 给 出 句子 中 的 基本 名 词 短 语 。 


输入 : At Microsoft Research, we have an insatiable curiosity and the desire to 


create new technology that will help define the computing experience. 

输出 : At/O Microsoft/B Research/E, we/O have/O an/O insatiable/B curios- 
ity/E and/O the/O desire/BE to/O create/O new/B technology/E that/O will/O 
help/O define/O the/O computing/B experience/E. 
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1.8.3 回归 问题 


回归 (regression) 是 监督 学 习 的 另 一 个 重要 问题 。 回 
变量 ) 之 间 的 关系 , 特别 是 当 输 入 变量 的 值 发 生变 化 时 , 输出 变量 


量 ) 和 输出 变量 ( 因 
的 值 随 之 发 生 的 变化 。 


归 问 题 的 学 习 等 价 于 函数 拟 合 : 选择 一 条 函数 曲线 使 其 很 好 地 拟 合 已 知 数 


归 用 于 预测 输入 变量 〈 


自 变 


回归 模型 正 是 表示 从 输入 变量 到 输出 变量 之 间 映 射 的 函数 。 


预测 未 知 数 据 (参照 1.4.2 节 )。 
回归 问题 分 为 学 习 和 预测 两 个 过 程 (如 图 1.12 所 示 )。 首 先 给 定 一 个 训练 数据 集 : 


T = {(21, 91), (zy2) , (TN, yn) } 


H 


昌 且 很 好 


地 


这 里 ，zi E R” 是 输入 , y ER 是 对 应 的 输出 , i = 1,2,… , N。 学 习 系 统 基 于 训练 数 
据 构建 一 个 模型 , 即 函 数 Y = f(X): 对 新 的 输入 zw+l， 预 测 系 统 根据 学 习 的 模型 
Y = f(X) 确定 相应 的 输出 yr gi. 


回归 问题 按照 输入 变量 的 个 数 , 分 为 一 元 回归 和 多 元 


(YEY) yey) 


vel 


学 习 系统 


模型 


一 一 一 | 


预测 系统 


图 1.12 ”回归 问题 


变量 之 间 关 系 的 类 型 即 模型 的 类 型 ， 分 为 线性 回归 和 非 线性 回归 。 


回归 学 习 最 党 


用 的 损失 函数 是 平方 损失 函数 , 在 此 情况 下 


的 最 小 二 乘法 (least squares) 求解 。 
许多 领域 的 任务 都 可 以 形式 化 为 回归 问题 ， 比 如 , 回归 可 以 用 于 商务 领域 , 作为 


AA (比如 , 该 公 


市 场 趋势 预测 、 产 品质 量 管理 、 客 户 满意 度 调查 、 
单 介绍 股价 预测 问题 。 假 设 知道 某 一 公司 在 过 去 不 同时 间 点 〈 比 如 , 每 天 ) 的 市 场 上 
的 股票 价格 (比如 ,股票 平均 价格 ), 以 及 在 各 个 时 间 点 之 前 可 能 影响 该 公司 股价 的 
司 前 一 周 的 营业 额 、 利 润 )。 目 标 是 从 过 去 的 数据 学 习 一 个 模型 ,使 


可 以 基于 当前 的 信息 预测 该 公司 下 一 个 时 间 点 的 股票 价格 。 可 


问题 解决 。 具体 地 , 将 影响 股价 的 信息 视 为 自 变量 (输入 的 特征 
量 (输出 的 值 )。 将 过 去 的 数据 作为 训练 数据 就 可 以 学 习 一 个 


， 回 


归 问 题 可 以 


以 将 这 个 问题 作为 
)， 而 将 股价 视 为 


H| 


归 模 型 ， 并 对 未 来 


回归 ; 按照 输入 变量 和 输出 


因 
的 


著名 


投资 风险 分 析 的 工具 。 作 为 例子 , 简 


SS OF ot oF 
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价 进行 预测 。 可 以 看 出 这 是 一 个 困难 的 预测 问题 , 因为 影响 股价 的 因素 非常 多 , 我 们 
未 必 能 判断 到 哪些 信息 (输入 的 特征 ) 有 用 并 能 得 到 这 些 信息 。 


本 章 概 要 


1. 统计 学 习 或 机 器 学 习 是 关于 计算 机 基于 数据 构建 概率 统计 模型 并 运用 模型 对 
数据 进行 分 析 与 预测 的 一 门 学 科 。 统计 学 习 包 括 监督 学 习 、 无 监督 学 习 和 强化 学 习 。 

2. 统计 学 习 方法 三 要 素 一 一 模型 、 策 略 、 算 法, 对 理解 统计 学 习 方法 起 到 提纲 者 
领 的 作用 。 

3. 本 书 第 1 篇 主要 讨论 监督 学 习 , 监督 学 习 可 以 概括 如 下 : 从 给 定 有 限 的 训练 数 
据 出 发 , 假设 数据 是 独立 同 分 布 的 , 而 且 假设 模型 属于 某 个 假设 空间 , 应 用 某 一 评价 
准则 ,从 假设 空间 中 选取 一 个 最 优 的 模型 , 使 它 对 已 给 训练 数据 及 未 知 测试 数据 在 给 
定 评价 标准 意义 下 有 最 准确 的 预测 。 

4. 统计 学 习 中 , 进行 模型 选择 或 者 说 提高 学 习 的 泛 化 能 力 是 一 个 重要 问题 。 如 果 
只 考虑 减少 训练 误差 , 就 可 能 产生 过 拟 合 现象 。 模 型 选择 的 方法 有 正则 化 与 交叉 验证 。 
学 习 方法 泛 化 能 力 的 分 析 是 统计 学 习 理论 研究 的 重要 课题 。 

5. 分 类 问题 、 标 注 问 题 和 回归 问题 都 是 监督 学 习 的 重要 问题 。 本 书 第 1 篇 介绍 的 
统计 学 习 方 法 包括 感知 机 、k 近邻 法 、 朴 素 贝 叶 斯 法 、 SRA. EE i TE VSS oe 
模型 、 支 持 向 量 机 、 提 升 方法 、 EM 算法 、 隐 马尔 可 夫 模 型 和 条 件 随机 场 。 这 些 方法 是 
主要 的 分 类 、 标注 以 及 回归 方法 。 它们 又 可 以 归 类 为 生成 方法 与 判别 方法 。 


关于 统计 学 习 或 机 器 学 习 方 法 一 般 介绍 的 书籍 可 以 参阅 文献 [1-8]。 
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1.1 说 明 伯 努 利 模型 的 极 大 似 然 估计 以 及 贝 叶 斯 估计 中 的 统计 学 习 方 法 三 要 素 。 
伯 努 利 模型 是 定义 在 取 值 为 0 与 1 的 随机 变量 上 的 概率 分 布 。 假 设 观测 到 伯 努 利 模 型 
n 次 独立 的 数据 生成 结果 , 其 中 大 次 的 结果 为 1， 这 时 可 以 用 极 大 似 然 估计 或 贝 叶 斯 
估计 来 估计 结果 为 1 的 概率 。 

1.2 ”通过 经 验 风险 最 小 化 推导 极 大 似 然 估计 。 证 明 模 型 是 条 件 概率 分 布 , 当 损失 
函数 是 对 数 损失 函数 时 , 经验 风 险 最 小 化 等 价 于 极 大 似 然 估 计 。 


34 第 1 章 统计 学 习 及 监督 学 习 概论 
参考 文献 
[1] Hastie T, Tibshirani R, Friedman J. The elements of statistical learning: data mining, 


inference, and prediction. Springer. 2001. (中 译本 : 统计 学 习 基础 一 一 数据 挖掘 、 推 理 
与 预测 . 范 明 , 柴 玉 梅 , 咎 红 英 等 译 . 北京 : 电子 工业 出 版 社 , 2004.) 


Bishop M. Pattern recognition and machine learning. Springer, 2006. 


Daphne Koller, Nir Friedman. Probabilistic graphical models: principles and tech- 
niques. MIT Press, 2009. 

Ian Goodfellow, Yoshua Bengio, Aaron Courville, et al. Deep learning. MIT Press, 
2016. 

Tom M. Michelle. Machine learning. McGraw-Hill Companies, Inc. 1997. (中 译本 : 机 
器 学 习 . 北京 : 机 械 工业 出 版 社 , 2003.) 

David Barber. Bayesian reasoning and machine learning. Cambridge University Press, 
2012. 

Richard S Sutton, Andrew G Barto. Reinforcement learning: an introduction. MIT 
Press, 1998. 

周志 华 . 机 器 学 习 . 北京 : 清华 大 学 出 版 社 , 2017. 


感知 机 (perceptron) 是 二 类 分 类 的 线性 分 类 模型 ,其 输入 为 实例 的 特征 向 量 , 输 
出 为 实例 的 类 别 , 取 +1 和 -1 二 值 。 感知 机 对 应 于 输入 空间 (特征 空间 ) 中 将 实例 划 
分 为 正 负 两 类 的 分 离 超 平面 , 属于 判别 模型 。 感知 机 学 习 旨 在 求 出 将 训练 数据 进行 线 
性 划分 的 分 离 超 平面 , 为 此 ， 导入 基于 误 分 类 的 损失 函数 , 利用 梯度 下 降 法 对 损失 函 
数 进行 极 小 化 , 求 得 感知 机 模型 。 感知 机 学 习 算 法 具有 简单 而 易于 实现 的 优点 , 分 为 
原始 形式 和 对 侦 形式 。 感知 机 预测 是 用 学 习 得 到 的 感知 机 模型 对 新 的 输入 实例 进行 分 
类 。 感知 机 1957 年 由 Rosenblatt 提出 , 是 神经 网 络 与 支持 向 量 机 的 基础 。 

本 章 首先 介绍 感知 机 模型 ; 然后 叙述 感知 机 的 学 习 策略 , 特别 是 损失 函数 ; 最 后 
介绍 感知 机 学 习 算 法 , 包括 原始 形式 和 对 偶 形式 , 并 证 明 算法 的 收敛 性 。 


2.1 感知 机 模型 


定义 2.1 (感知 机 ) ”假设 输入 空间 HET) RX CR, 输出 空间 是 
YV = {+1, 一 1}. RA r E X 表示 实例 的 特征 向 量 ,对 应 于 输入 空间 ( 特征 空间 ) 的 点 ; 
输出 YE y 表示 实例 的 类 别 。 由 输入 空间 到 输出 空间 的 如 下 函数 : 


f(x) = sign(w + x +b) (2.1) 


称 为 感知 机 。 AF, w 和 日 为 感知 机 模型 参数 ，w eR” 叫 作 权 值 ( weight ) 或 权 值 向 
量 (weight vector ), b € R 叫 作 偏 置 (bias )，w 和 .zz 表示 由 和 7 HAR. sign 是 符号 


BK, PP 
+1, 20 
sign(z) = i (2.2) 
-1, «r<0 


感知 机 是 一 种 线性 分 类 模型 ， 属 于 判别 模型 。 感 知 机 模型 的 假设 空间 是 定义 在 
特征 空间 中 的 所 有 线性 分 类 模型 dinear classification model) 或 线性 分 类 器 (linear 
classifier) ， 即 函数 集合 {f\ f(x) =w £ +b} 
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感知 机 有 如 下 几何 解释 : 线性 方程 


wertb=0 (2.3) 


对 应 于 特征 空间 R 中 的 一 个 超 平面 5, 其 中 w 是 超 平 面 的 法 向 量 , b 是 超 平面 的 截 
距 。 这 个 超 平面 将 特征 空间 划分 为 两 个 部 分 。 位 于 两 部 分 的 点 (特征 向 量 ) 分 别 被 分 为 
正 、 负 两 类 。 因 此 , 超 平面 5 称 为 分 离 超 平面 (separating hyperplane)， 如 图 2.1 所 示 。 


图 2.1 感知 机 模型 


感知 机 学 习 ， 由 训练 数据 集 (实例 的 特征 向 量 及 类 别 》 
T = {(21,%), (zay2) , (TN, yn) } 


其 中 , m € X =R”, yi CY = {+1, 一 1}, i=1,2,… ,NN， 求 得 感知 机 模型 (2.1), W 
求 得 模型 参数 w, 5b。 感知 机 预测 , 通过 学 习 得 到 的 感知 机 模型 , 对 于 新 的 输入 实例 给 
出 其 对 应 的 输出 类 别 。 


2.2 感知 机 学 习 策 略 


2.2.1 数据 集 的 线性 可 分 性 
定义 2.2 (数据 集 的 线性 可 分 性 ) ”给 定 一 个 数据 集 
T = {(z1,%), (22,2), , (ZN, YN)} 
其 中 , zi CX =R" yi CV={41,-1}, i=1,2,---,N, 如果 存在 菜 个 超 平 面 5 


wer+b=0 
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能 够 将 数据 集 的 正 实例 点 和 负 实 例 点 完全 正确 地 划分 到 超 平面 的 两 侧 ， 即 对 所 有 
上 = 二 1 的 实例 i Awea+b>0, 对 所 有 yi 二 一 1 的 实例 i A weri 十 < 0 A 
称 数 据 集 T 为 线性 可 分 数据 集 ( linearly separable data set ); 否则 ， 称 数据 集 人 线性 
不 可 分 ， 


2.2.2 ”感知 机 学 习 策略 


假设 训练 数据 集 是 线性 可 分 的 , 感知 机 学 习 的 目标 是 求 得 一 个 能 够 将 训练 集 正 实 
例 点 和 负 实 例 点 完全 正确 分 开 的 分 离 超 平面 。 为 了 找 出 这 样 的 超 平面 ， 即 确定 感知 
机 模型 参数 w, b 需要 确定 一 个 学 习 策略 ， 即 定义 (经验) 损失 函数 并 将 损失 函数 极 
小 化 。 

损失 函数 的 一 个 自然 选择 是 误 分 类 点 的 总 数 。 但是, 这 样 的 损失 函数 不 是 参数 w, 
b 的 连续 可 导 函 数 , 不 易 优化 。 损 失 函 数 的 男 一 个 选择 是 误 分 类 点 到 超 平面 5 的 总 距 
离 , 这 是 感知 机 所 采用 的 。 为 此 , 首先 写 出 输入 空间 R 中 任 一 点 zo 到 超 平面 S 的 
距离 : 


1 
Tel [w + zo + | 


这 里 , wl] 是 w 的 Le 范 数 。 
其 次 , 对 于 误 分 类 的 数据 (ai, yi) 来 说 ， 


—yi(w+2,+b)>0 


成 立 。 因为 当 w。zi 十 b> 0 时 , yi = 一 1; WH w e. ri +b <0 Rt, yi = 十 1。 因此, iR 
分 类 点 zi 到 超 平面 5S 的 距离 是 


1 
To + 2; +6) 


这 样 , 假设 超 平面 9 的 误 分 类 点 集合 为 M, 那么 所 有 误 分 类 点 到 超 平面 9 的 总 
距离 为 i 
-To > yi(w * zi +b) 


TiEM 


不 考虑 Ta 就 得 到 感知 机 学 习 的 损失 函数 〇 。 


D 第 7 BPS y(w -x +b) 称 为 样本 点 的 函数 间隔 。 


38 第 2 章 感知 机 


y 


给 定 训练 数据 集 
T = {(21, y1), (22, Y2) , (TN,YN)} 


其 中 , zi € X =R”, yi € Y = {4+1,-1}, i=1,2,---, No 感知 机 sign(w.z+b 学 
习 的 损失 函数 定义 为 
L(w,b) =— 》 yi(w + 2; +) (2.4) 
TiEM 

其 中 M 为 误 分 类 点 的 集合 。 这 个 损失 函数 就 是 感知 机 学 习 的 经 验 风险 函数 。 

显然 , 损失 函数 L(w,b) 是 非 负 的 。 如 果 没 有 误 分 类 点 , 损失 函数 值 是 0。 而且 ， 
误 分 类 点 越 少 , 误 分 类 点 离 超 平面 越 近 , 损失 函数 值 就 越 小 。 一 个 特定 的 样本 点 的 损 
失 函 数 : 在 误 分 类 时 是 参数 w, b 的 线性 函数 , 在 正确 分 类 时 是 0。 因 此 , 给 定 训练 数据 
SET, PARMA L(w, b) Æ w, b 的 连续 可 导 函 数 。 

感知 机 学 习 的 策略 是 在 假设 空间 中 选取 使 损失 函数 式 (2.4) 最 小 的 模型 参数 
w, b, 即 感知 机 模型 。 


2.3 ”感知 机 学 习 算 法 


感知 机 学 习 问题 转化 为 求解 损失 函数 式 〈2.4) 的 最 优化 问题 ， 最 优化 的 方法 是 随 
机 梯度 下 降 法 。 本 节令 述 感知 机 学 习 的 具体 算法 , 包括 原始 形式 和 对 偶 形 式 ， 并 证 明 
在 训练 数据 线性 可 分 条 件 下 感知 机 学 习 算 法 的 收敛 性 。 


2.3.1 感知 机 学 习 算法 的 原始 形式 
感知 机 学 习 算 法 是 对 以 下 最 优化 问题 的 算法 。 给 定 一 个 训练 数据 集 
T = {(£1, y1), (£2,y2) +- , (TN,YN)} 


其 中 ， Ti E x =R", Yi E y= {-1,1}, t= 1,2,--- N, 求 参 数 w, b, 使 其 为 以 下 损 
失 函 数 极 小 化 问题 的 解 


min L(w,b) = — D yi(w + zi +b) (2.5) 
=i TiEM 


其 中 M 为 误 分 类 点 的 集合 。 
感知 机 学 习 算 法 是 误 分 类 驱动 的 , 具体 采用 随机 梯度 下 降 法 (stochastic gradient 
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descent) 。 首 先 ,任意 选取 一 个 超 平 面 wo，bo, 然后 用 梯度 下 降 法 不 断 地 极 小 化 目标 
函数 (2.5)。 极 小 化 过 程 中 不 是 一 次 使 M 中 所 有 误 分 类 点 的 梯度 下 降 , 而 是 一 次 随机 
选取 一 个 误 分 类 点 使 其 梯度 下 降 。 


假设 误 分 类 点 集合 M 是 固定 的 , 那么 损失 函数 工 (w, 虽 的 梯度 由 


VwL(w, b) = — D YiTi 


TiEM 
ViL(w,b) =— J vi 
TiEM 
给 出 。 
随机 选取 一 个 误 分 类 点 (xi, yi) 对 w, b 进行 更 新 : 


W— WH NY: Li (2.6) 


式 中 7(0 <n <1) RAK, 在 统计 学 习 中 又 称 为 学 习 率 (learning rate) 。 这 样 ,通过 
迭代 可 以 期 待 损 失 函 数 L(w,b) 不 断 减 小 , 直到 为 0。 综 上 所 述 , 得 到 如 下 算法 : 

算法 2.1 (感知 机 学 习 算 法 的 原始 形式 ) 

输入 : 训练 数据 集 T = {(21, 91), (7T2,y2),… (an, yw) } IEP z; € X =R”, yi € 
Y= {-1, +1}; i=1,2,… ,NN; 学 习 率 7(0<7n<1); 

输出 : wb; 感知 机 模型 f(x) = sign(w 。Zz +b). 

(1) 选取 初 值 wo, bo; 

(2) 在 训练 集中 选取 数据 (xi, yi); 

(3) 如 果 yi(w。 xi +b) <0, 


w — w + NY Zi 


b — b + nyi 


(4) 转 至 O), 直至 训练 集中 没有 误 分 类 点 。 

这 种 学 习 算 法 直观 上 有 如 下 解释 : 当 一 个 实例 点 被 误 分 类 ， 即位 于 分 离 超 平面 
错误 一 侧 时 , 则 调整 w, b 的 值 ， 使 分 离 超 平面 向 该 误 分 类 点 的 一 侧 移动 ， 以 减少 该 
分 类 点 与 超 平面 间 的 距离 ， 直至 超 平面 越过 该 误 分 类 点 使 其 被 正确 分 类 。 

算法 2.1 是 感知 机 学 习 的 基本 算法 , 对 应 于 后 面 的 对 偶 形式 , 称 为 原始 形式 。 感 
知 机 学 习 算法 简单 且 易 于 实现 。 


<2 . 
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例 2.1 如 图 2.2 所 示 的 训练 数据 集 ， 其 正 实例 点 是 z1 = (3,3)7, xo = (4,3)7, 
负 实 例 点 是 za = (11)7， 试 用 感知 机 学 习 算 法 的 原始 形式 求 感知 机 模型 f(z) = 
sign(w a+b). XE, w= (w),w)T, z = (x), 2@))T, 


x) 


2x) +x2)-5=0 


6 x) 


图 2.2 ”感知 机 示例 
fA 构建 最 优化 问题 : 


min L(w, 6) = — > yilw + zi +) 
a TiEM 


按照 算法 2.1 RME w, be 7 = 1。 
(1) 取 初 值 wo = 0, bo =0 
(2) 对 zl = (3,3)T, yı(wo • z1 +0) = 0, 未 能 被 正确 分 类 , 更 新 w, b 


wi = wo +121 = (3,3)7, bı = bo +y: =1 


得 到 线性 模型 
w » £ +b = 3r® +322) +1 


(3) 对 21,22, 显然 , yi(wi + zi + b1) > 0, 被 正确 分 类 , 不 修改 w, b; 
对 za = (1,1)T，ya(wl。zs +1) <0, 被 误 分 类 , 更 新 w, de 


w2 = WU1 十 9az3 = (2,2)7, bo = bi + y3 =0 


得 到 线性 模型 
wz » £ + b2 = 2c) + 27) 
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如 此 继续 下 去 , 直到 
wr = (1,1)", br =-3 
wr* £ +b7 =1™ +2 一 3 
对 所 有 数据 点 yi(wr。Zzi +b7) > 0, 没有 误 分 类 点 , 损失 函数 达到 极 小 。 
分 离 超 平面 为 : r +22) -3=0 
感知 机 模型 为 : f(x) = sign(z(? +r — 3) a 
迭代 过 程 见 表 2.1. 
表 2.1 «PF 2.1 求解 的 迭代 过 程 
迭代 次 数 误 分 类 点 w b weatb 
0 0 0 0 
1 zı 3,3)T 1 32) +4 32) +1 
2 T3 2,2)? 0 2a) + 2z) 
3 T3 1, 1)T 一 1 ge) 十 z(2) 4 
4 T3 0,0)7 一 2 = 
5 zı 3,3)T -1 3a) + 3r —1 
6 T3 22) =) Qe) + Qn) 一 2 
7 T3 1,1)7 -3 zt) +r 一 3 
8 0 1,1)T -3 zt + 2) 一 3 


这 是 在 计算 中 误 分 类 点 先后 取 ztza,zaza,zl,z3)Z3 得 到 的 分 离 超 平面 和 感知 机 
模型 。 如 果 在 计算 中 误 分 类 点 依次 取 LX] ,L3 LZ LZ LI ,L3 X33 ,L1 13,03» 那么 得 到 的 分 
离 超 平面 是 2z0) +r 一 5 = 0。 


可 见 ， 感 知 机 学 习 算法 由 于 采 月 


不 同 。 


2.3.2 ”算法 的 收敛 性 


现在 证 日 


代 可 以 得 到 一 个 将 训练 数据 集 完 全 正确 划分 的 分 离 超 平面 及 感知 机 模型 。 


为 了 便于 


PUR SHES, KAE b 并 入 权重 向 量 w iE @ = (wT,b)T， 同 术 


不同 的 初 值 或 选取 不 同 的 误 分 类 点 , 解 可 以 


有， 对 于 线性 可 分 数据 集 感知 机 学 习 算法 原始 形式 收敛 , 即 经 过 有 限 次 从 


也 将 


输入 向 量 加 以 扩充 , 加 进 常数 1, WE ê= (xT, 1)T. 这 样 , FER", Ô eR, © 


然 , we F=wertdh. 
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EH 2.1 (Novikoff) 设 训练 数据 集 下 = {(£1, y1), (£2,y2) , (TN,YN)} 是 线 
性 可 分 的 , 其 中 ri EX =R”, yi CV={-1, 41} i=1,2,… ,NN, H 

(1) 存在 满足 条 件 || Wopt|| = 1 的 超 平面 Ûopt * È = Wopt © £+ bopt = 0 将 训练 数 
据 集 完全 正确 分 开 ; 且 存在 了 > 0, HA i=1,2,---,N 


Yi(Wopt * 2i) = yi(Wopt * Ti + bopt) > 7 (2.8) 


(2) 令 已 = max, | 全， 则 感知 机 算法 2.1 EI SAE RE MRPRAK k 满足 


不 等 式 
R 
k< (4) (2.9) 
证 明 (1) 由 于 训练 数据 集 是 线性 可 分 的 , 按照 定义 2.2, 存在 超 平面 可 将 训练 数 
据 集 完全 正确 分 开 ,， 取 此 超 平面 为 mopt。 公 = wopt。z 二 bopt = 0» IË ||woptl] = 1。 由 
于 对 有 限 的 ; =1,2,---,N, BH 


Yi(Wopt $ ĉi) ad Yi(Wopt “Ut bopt) >0 


所 以 存在 


学 一 min{yi(Wopt oat bopt) } 


使 


Yi(Wopt * ĉi) = Yi(Wopt * Ti + bopt) > Y 


(2) 感知 机 算法 从 Wo = 0 开始 ,如 果实 例 被 误 分 类 , 则 更 新 权重 。 令 如-1 是 第 
k 个 误 分 类 实例 之 前 的 扩充 权重 向 量 ， 即 


Ük- = (wea, be-1)™ 
ME k 个 误 分 类 实例 的 条 件 是 
Yi(Dk-1* ĉi) = yi(We-1 * Ti + bk-1) <0 (2.10) 
车 (xi, yi) 是 被 Ôk- = (wh ibr)! 误 分 类 的 数据 , 则 w Ald 的 更 新 是 


Wk — Wk-1 + NYT: 


bk — bk-1 + Yi 


即 
We = We-1 + NY: Ti (2.11) 


下 面 推导 两 个 不 等 式 (2.12) 及 (2.13): 


Wk 和 Wopt 2 kny (2.12) 
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由 式 (2.11) 及 式 (2.8) 得 


Wr Wopt = Wri? Wopt + NYiWopt ok 


> Wr-1 * Wopt + NY 
由 此 递 推 即 得 不 等 式 (2.12) 
Wr * Wopt Z Wk-1 * Wopt + NY È We-2 * Wopt 十 2NY > 
orl? < kn? R? 


由 式 (2.11) 及 式 (2.10) 得 


lkl? = Jnl + 2nyade 1 © ĉi +n? lê? 


2 网 
rill +7? llê:ll 
lôr]? + 9? R? 
||tx—2||? + 2n?R? < --- 


kn? R? 


IN 人 人 人 


结合 不 等 式 (2.12) 及 式 (2.13) 即 得 


kny < tx + Wopt < ||@ell dopell < VEnR 
大 272 < kR? 


于 是 


2 
‘< 
7 


<- > kny 


(2.13) 


定理 表明 , 误 分 类 的 次 数 k 是 有 上 界 的 , 经 过 有 限 次 搜索 可 以 找到 将 训练 数据 完 
全 正确 分 开 的 分 离 超 平面 。 也 就 是 说 , 当 训 练 数据 集 线 性 可 分 时 , 感知 机 学 习 算 法 原 
始 形式 迭代 是 收敛 的 。 但 是 例 2.1 说 明 , 感知 机 学 习 算 法 存在 许多 解 , 这些 解 既 依赖 
于 初 值 的 选择 ， 也 依赖 于 迭代 过 程 中 误 分 类 点 的 选择 顺序 。 为 了 得 到 唯一 的 超 平面 ， 
需要 对 分 离 超 平面 增加 约束 条 件 。 这 就 是 第 7 章 将 要 讲述 的 线性 支持 向 量 机 的 想法 。 
当 训 练 集 线性 不 可 分 时 ,感知 机 学 习 算 法 不 收敛 , 迭代 结果 会 发 生 震荡 。 


2.3.3 ”感知 机 学 习 算法 的 对 偶 形 式 


现在 考虑 感知 机 学 习 算 法 的 对 偶 形式 。 感 知 机 学 习 算 法 的 原始 形式 和 对 偶 形 式 与 


第 7 章 中 支持 向 量 机 学 习 算 法 的 原始 形式 和 对 偶 形 式 相对 应 。 
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对 偶 形 式 的 基本 想法 是 , 将 w 和 表示 为 实例 z; 和 标记 y; 的 线性 组 合 的 形式 ， 
通过 求解 其 系数 而 求 得 w Alb. 不 失 一 般 性 , 在 算法 2.1 中 可 假设 初始 值 wo, bo 均 为 
0。 对 误 分 类 点 (xi, yi) 通过 

w + Ww + nNyiTi 

b — b+ nyi 
逐步 修改 w, b, 设 修改 n 次 , 则 w, b 关于 (ziy) 的 增 量 分 别 是 qiyizi 和 ays, XE 
Qi = nin. 这 样 ， 从 学 习 过 程 不 难看 出 , 最 后 学 习 到 的 w,b 可 以 分 别 表示 为 


el 


N 
w= So aiyizi (2.14) 
i=1 
N 
b= 》 aiyi (2.15) 
i=1 


这 里 ,ai > 0,1 =1,2,---,N, Sn HL, 表示 第 i 个 实例 点 由 于 误 分 而 进行 更 新 的 
次 数 。 实 例 点 更 新 次 数 越 多 , 意味 着 它 距离 分 离 超 平面 越 近 ,也 就 越 难 正确 分 类 。 换 
句 话说 , 这 样 的 实例 对 学 习 结果 影响 最 大 。 

下 面 对 照 原始 形式 来 叙述 感知 机 学 习 算法 的 对 偶 形式 。 

算法 2.2 (感知 机 学 习 算 法 的 对 偶 形式 ) 


输入 : 线性 可 分 的 数据 集 T={(z1,91), (z2,y2),…, (EN yN) p 其 中 aE R", yE 
{-1,4+1}, i=1,2,---,N; 学 习 率 7 (0 <n < 1); 


N 

输出 : ab: 感知 机 模型 f(x) = sa (Sen) 其 中 a = 
j=l 

(a1,a2, an)” 


Mao, b<—0; 
(2) 在 训练 集中 选取 数据 (zi, yi): 


N 
(3) 如 果 Yi (Sone stit | <0, 


j=1 


Qi — ai +n 


b — b+ nyi 


(4) 转 至 (2) 直到 没有 误 分 类 数据 。 B 
对 偶 形 式 中 训练 实例 仅 以 内 积 的 形式 出 现 。 为 了 方便 , 可 以 预先 将 训练 集中 实 
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例 间 的 内 积 计算 出 来 并 以 矩阵 的 形式 存储 , 这 个 矩阵 就 是 所 谓 的 Gram 矩阵 (Gram 
matrix) 


G = [zi + ZINxN 


例 2.2 数据 同 例 2.1， 正 样本 点 是 zi = (3,3), z2 = (4,3)7， 负 样本 点 是 
z3 = (1, 1)T， 试 用 感知 机 学 习 算法 对 偶 形式 求 感知 机 模型 。 


解 ”按照 算法 2.2， 
a) Ra; =0, i=1,2,3, b=0, n=1; 
(2) 计算 Gram 矩阵 
18 21 6 
G=]| 21 25 7 
6 7 2 
(3) 误 分 条 件 N 
Yi > ajyjaj + a5 +b <0 
j=l 
参数 更 新 


ai — ai +1, be b+y 


(4) 迭代 。 过程 从 略 , 结果 列 于 表 2.2; 


(5) 
w = 271+ Ore — 5z3 = (1,1)T 
b=-3 
分 离 超 平面 
zt +r _3=0 
感知 机 模型 
f(z) = sign(2 +z@) — 3) n 
R 2.2 fi) 2.2 求解 的 迭代 过 程 
k 0 1 2 3 4 5 6 T 
T1 T3 T3 T3 Tı T3 T3 
ay 0 1 I 1 2 2 2 
a2 0 0 0 0 0 0 0 0 
a3 0 0 1 2 3 3 4 5 
b 0 1 0 —1 一 2 一 1 一 2 一 3 


对 照例 2.1, 结果 一 致 , 迭代 步骤 也 是 互相 对 应 的 。 
与 原始 形式 一 样 , 感知 机 学 习 算法 的 对 偶 形式 迄 代 是 收敛 的 , 存在 多 个 解 。 
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本 章 概 要 
1. 感知 机 是 根据 输入 实例 的 特征 向 量 z 对 其 进行 二 类 分 类 的 线性 分 类 模型 : 
f(x) = sign(w + x +b) 


感知 机 模型 对 应 于 输入 空间 (特征 空间 ) 中 的 分 离 超 平面 w e rb = 0。 
2. 感知 机 学 习 的 策略 是 极 小 化 损失 函数 : 
min L(w,b) = — 5 yi(w * zi +b) 
w,b ziEM 
损失 函数 对 应 于 误 分 类 点 到 分 离 超 平面 的 总 距离 。 
3. 感知 机 学 习 算 法 是 基于 随机 梯度 下 降 法 的 对 损失 函数 的 最 优化 算法 , 有 原始 形 
式 和 对 侦 形式 。 算 法 简单 且 易 于 实现 。 原始 形式 中 , 首先 任意 选取 一 个 超 平面 , 然后 
用 梯度 下 降 法 不 断 极 小 化 目标 函数 。 在 这 个 过 程 中 一 次 随机 选取 一 个 误 分 类 点 使 其 梯 
度 下 降 。 
4. 当 训 练 数据 集 线 性 可 分 时 , 感知 机 学 习 算 法 是 收敛 的 。 感知 机 算法 在 训练 数据 
集 上 的 误 分 类 次 数 k 满足 不 等 式 : 
2 
<9 
Y 


当 训练 数据 集 线 性 可 分 时 ,感知 机 学 习 算法 存在 无 穷 多 个 解 ， 其 解 由 于 不 同 的 初 
值 或 不 同 的 迭代 顺序 而 可 能 有 所 不 同 。 


IK 


继续 阅读 


感知 机 最 早 在 1957 年 由 Rosenblatt 提出 |"). Novikoff!2], Minsky 与 Papertl3] 等 
人 对 感知 机 进行 了 一 系列 理论 研究 。 感 知 机 的 扩展 学 习 方 法 包括 口袋 算法 (pocket 
algorithm) 内、 表决 感知 机 (voted perceptron) 回 、 带 边缘 感知 机 (perceptron with 
margin) [6] 。 关 于 感知 机 的 介绍 可 进一步 参考 文献 [7, 8] 。 


5J A 


2.1 Minsky 与 Papert 指出 : 感知 机 因为 是 线性 模型 ， 所 以 不 能 表示 复杂 的 函 
数 , 如 异 或 (XOR)。 验证 感知 机 为 什么 不 能 表示 异 或 。 
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2.2 ”模仿 例题 2.1, 构建 从 训练 数据 集 求解 感知 机 模型 的 例子 。 


2.3 证 明 以 下 定理 : 样本 集 线 性 可 分 的 充分 必要 条 件 是 正 实例 点 集 所 构成 的 凸 
壳 台 与 负 实例 点 集 所 构成 的 凸 壳 互 不 相交 。 
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O RRA SCR" AHR" PNA 个 点 所 组 成 的 集合 , 即 S = {zx1, 22,…, zk}. 定义 的 凸 壳 
conv(S) 为 


k 
conv(S) = {= = >D 和 iTi 
i=1 


k 
DAHL X >0, aaa} 


i=l 
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k 近邻 法 (k-nearest neighbor, k-NN) 是 一 种 基本 分 类 与 回归 方法 。 本 书 只 讨论 
分 类 问题 中 的 近邻 法 。k 近邻 法 的 输入 为 实例 的 特征 向 量 , 对 应 于 特征 空间 的 点 ; 
输出 为 实例 的 类 别 , 可 以 取 多 类 。k 近邻 法 假设 给 定 一 个 训练 数据 集 ， 其 中 的 实例 类 
别 已 定 。 分 类 时 , 对 新 的 实例 , 根据 其 个 最 近邻 的 训练 实例 的 类 别 , 通过 多 数 表决 
等 方式 进行 预测 。 因此 , k 近邻 法 不 具有 显 式 的 学 习 过 程 。 k 近邻 法 实际 上 利用 训练 数 
据 集 对 特征 向 量 空间 进行 划分 并 作为 其 分 类 的 “模型 ”。k 值 的 选择 、 距 离 度 量 及 分 
类 决策 规则 是 大 近邻 法 的 三 个 基本 要 素 。k 近邻 法 1968 年 由 Cover 和 Hart 提出 。 

本 章 首先 叙述 近邻 算法 , 然后 讨论 近邻 法 的 模型 及 三 个 基本 要 素 , 最 后 讲述 
k 近邻 法 的 一 个 实现 方法 一 一 kd W, 介绍 构造 kd 树 和 搜索 kd 树 的 算法 。 


3.1 上 近邻 算法 


k 近邻 算法 简单 、 直 观 : 给 定 一 个 训练 数据 集 , 对 新 的 输入 实例 , 在 训练 数据 集中 
找到 与 该 实例 最 邻近 的 个 实例 , 这 个 实例 的 多 数 属于 某 个 类 , 就 把 该 输入 实例 分 
为 这 个 类 。 FHERR k 近邻 算法 , 然后 再 讨论 其 细节 。 

算法 3.1 Ck 近邻 法 ) 

输入 : 训练 数据 集 


T = {(#1, 91); (zy2) , (TN,YN)} 


HA, zz eX CR” 为 实例 的 特征 向 量 , y; © YV = {c1,c2,… ,CK} 为 实例 的 类 
al, i = 1,2,.… Ns 实例 特征 向 量 r; 

输出 : 实例 z 所 属 的 类 yo 

(1) 根据 给 定 的 距离 度量 , 在 训练 集 中 找 出 与 > 最 邻近 的 上 个 点 , 涵盖 这 个 
点 的 z 的 邻 域 记 作 Ny (x); 

(2) 在 Ni (x) 中 根据 分 类 决策 规则 (如 多 数 表决 ) 决定 z 的 类 别 y: 
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y=argmax ` I(u=c), i=1,2-,N;j=1,2 有 (3 
Ee (2) 


式 (3.1) 中 , 了 为 指示 函数 , 即 当 y = cj 时 了 为 1, 否则 了 为 0。 n 
近邻 法 的 特殊 情况 是 k = 1 的 情形 , 称 为 最 近邻 算法 。 对 于 输入 的 实例 点 (特征 
向 量 ) >， 最 近邻 法 将 训练 数据 集中 与 z 最 邻近 点 的 类 作为 > 的 类 。 
近邻 法 没有 显 式 的 学 习 过 程 。 


3.2 大 近邻 模型 


近邻 法 使 用 的 模型 实际 上 对 应 于 对 特征 空间 的 划分 。 模 型 由 三 个 基本 要 素 一 一 
距离 度量 、k 值 的 选择 和 分 类 决策 规则 决定 。 


3.2.1 模型 


近邻 法 中 ， 当 训练 集 、 距离 度 量 (如 欧 氏 距离 )、k 值 及 分 类 决策 规则 (如 多 数 表 
决 ) 确定 后 , 对 于 任何 一 个 新 的 输入 实例 , 它 所属 的 类 唯一 地 确定 。 这 相当 于 根据 上 
述 要 素 将 特征 空间 划分 为 一 些 子 空间 , 确定 子 空间 里 的 每 个 点 所 属 的 类 。 这 一 事实 从 
及 近邻 算法 中 可 以 看 得 很 清楚 。 
特征 空间 中 ,对 每 个 训练 实例 点 og, 距离 该 点 比 其 他 点 更 近 的 所 有 点 组 成 一 个 
域 , 叫 作 单元 (cell)。 每 个 训练 实例 点 拥有 一 个 单元 , 所 有 训练 实例 点 的 单元 构成 对 
征 空间 的 一 个 划分 。 最 近邻 法 将 实例 ri 的 类 y; 作为 其 单元 中 所 有 点 的 类 标记 (class 
label)。 这样, 每 个 单元 的 实例 点 的 类 别 是 确定 的 。 图 3.1 是 二 维特 征 空间 划分 的 一 个 
例子 。 


= 网 


3.2.2 ”距离 度量 


特征 空间 中 两 个 实例 点 的 距离 是 两 个 实例 点 相似 程度 的 反映 。k 近邻 模型 的 特征 
空间 一 般 是 n 维 实数 向 量 空间 R”. 使 用 的 距离 是 欧 氏 距离 , 但 也 可 以 是 其 他 距离 , 如 
更 一 般 的 Lp IEN (Lp distance) 或 Minkowski 距离 (Minkowski distance) 。 

设 特征 空间 是 n 维 实数 向 量 空间 R”, zi zj E€ X, mi = (zz a), 

= (2,2), . 可 aE, Ti tj 的 Lp 距离 定义 为 


Ze(zpz) = (> lz 多- apn)" (3.2) 
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x2) | 


oO 


图 3.1 有 近邻 法 的 模型 对 应 特征 空间 的 一 个 划分 


XE p>. 4p=2 时, 称 为 欧 氏 距离 (Euclidean distance) ， 即 


n 2 
L2(zi, £j) = (> |x? 一 apr) 3.3) 
1=1 
当 p=1 时 , 称 为 曼哈顿 距离 (Manhattan distance) Bll 
Lili z) = > le? — 2 3.4) 
1=1 


当 p = co 时 , 它 是 各 个 坐标 距离 的 最 大 值 ， 即 


Loo(i, 23) = max |e — sf] 3.5) 


图 3.2 给 出 了 二 维 空间 中 p 取 不 同 值 时 , 与 原点 的 Lp 距离 为 1 (Lp = 1) 的 点 的 


图 3.2 Lp 距离 间 的 关系 
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下 面 的 例子 说 明 ， 由 不 同 的 距离 度量 所 确定 的 最 近邻 点 是 不 同 的 。 

例 3.1 已 知 二 维 空间 的 3 个 点 zi = (1,1)T, za = (5,1)7, z3 = (4,4), 试 求 在 
p 取 不 同 值 时 ，L, 距离 下 zl 的 最 近邻 点 。 

BAA a 和 za 只 有 第 一 维 的 值 不 同 , 所 以 p 为 任何 值 时 , Lp(z1,7x2) = 4。 而 


Li(z1, 23) = 6, L2(21, z3) = 4.24, L3(£1, 23) = 3.78, L4(z1, 23) 三 3.57 


于 是 得 到 : p 等 于 1 或 2 时 ,zs 是 zl 的 最 近邻 点 ; p 大 于 等 于 3 时 , za 是 zl 的 最 近 
邻 点 。 国 


3.2.3 k 值 的 选择 


k 值 的 选择 会 对 大 近邻 法 的 结果 产生 重大 影响 。 

如 果 选 择 较 小 的 大 值 ， 就 相当 于 用 较 小 的 邻 域 中 的 训练 实例 进行 预测 ,“ 学 习 ” 的 
近似 误差 (approximation error) 会 减 小 , 只 有 与 输入 实例 较 近 的 (相似 的 ) 训练 实例 
才 会 对 预测 结果 起 作用 。 但 缺点 是 “学 习 ” 的 估计 误差 (estimation error) 会 增 大 , fil 
测 结果 会 对 近邻 的 实例 点 非常 敏感 四 。 如 果 邻 近 的 实例 点 恰巧 是 噪声 ， 预测 就 会 
错 。 换 句 话 说 ,& 值 的 减 小 就 意味 着 整体 模型 变 得 复杂 ,容易 发 生 过 拟 合 。 

如 果 选 择 较 大 的 值 , 就 相当 于 用 较 大 邻 域 中 的 训练 实例 进行 预测 。 其 优点 是 
可 以 减少 学 习 的 估计 误差 , 但 缺点 是 学 习 的 近似 误差 会 增 大 。 这 时 与 输入 实例 较 远 
的 (不 相似 的 ) 训练 实例 也 会 对 预测 起 作用 , 使 预测 发 生 错 误 。k 值 的 增 大 就 意味 着 整 
体 的 模型 变 得 简单 。 

WMR k= N, 那么 无 论 输入 实例 是 什么 , 都 将 简单 地 预测 它 属于 在 训练 实例 中 最 
多 的 类 。 这 时 , 模型 过 于 简单 ,完全 忽略 训练 实例 中 的 大 量 有 用 信息 , 是 不 可 取 的 。 

在 应 用 中 ,大 值 一 般 取 一 个 比较 小 的 数值 。 通常 采用 交叉 验证 法 来 选取 最 优 的 大 值 。 


3.2.4 ”分 类 决策 规则 
k 近邻 法 中 的 分 类 决策 规则 往往 是 多 数 表决 ， 即 由 输入 实例 的 个 邻近 的 训练 实 
中 的 多 数 类 决定 输入 实例 的 类 。 


多 数 表决 规则 (majority voting rule) 有 如 下 解释 : 如 果 分 类 的 损失 函数 为 0-1 损 
失 函 数 ， 分 类 函数 为 


例 


地 


f: R” = {c1,02,--- ,CK} 


那么 误 分 类 的 概率 是 
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P(Y # f(X)) =1—- P(Y = f(X)) 


对 给 定 的 实例 z e ,其 最 近邻 的 个 训练 实例 点 构成 集合 Ni(z)。 如 果 涵 盖 Ni (a) 
的 区 域 的 类 别 是 cj， 那么 误 分 类 率 是 
z > Uys #9) =1- 7 > Im=c) 


ziENK(z) ZiENk(z) 
要 使 误 分 类 率 最 小 即 经 验 风险 最 小 , 就 要 使 >” Uys = cj) 最 大 , 所 以 多 数 表决 规 
ziENk(z) 
则 等 价 于 经 验 风险 最 小 化 。 


3.3 天 近邻 法 的 实现 : kd 树 


实现 k 近邻 法 时 ， 主 要 考虑 的 问题 是 如 何 对 训练 数据 进行 快速 k 近邻 搜索 。 这 点 
在 特征 空间 的 维 数 大 及 训练 数据 容量 大 时 尤其 必要 。 

k 近邻 法 最 简单 的 实现 方法 是 线性 扫描 (linear scan) 。 这 时 要 计算 输入 实例 与 每 
一 个 训练 实例 的 距离 。 当 训练 集 很 大 时 , 计算 非常 耗 时 , 这 种 方法 是 不 可 行 的 。 

为 了 提高 k 近邻 搜索 的 效率 , 可 以 考虑 使 用 特殊 的 结构 存储 训练 数据 ， 以 减少 计 
算 距 离 的 次 数 。 具体 方法 很 多 ， 下面 介绍 其 中 的 kd 树 (kd tree) HE. 


3.3.1 构造 ka 树 


kd 树 是 一 种 对 维 空间 中 的 实例 点 进行 存储 以 便 对 其 进行 快速 检索 的 树 形 数据 
结构 。kd 树 是 二 叉 树 , 表示 对 维 空间 的 一 个 划分 Cpartition) 。 构 造 kd 树 相当 于 不 
断 地 用 垂直 于 坐标 轴 的 超 平面 将 大 维 空间 切 分 , 构成 一 系列 的 维 超 矩 形 区 域 。kd 
树 的 每 个 结 点 对 应 于 一 个 大 维 超 矩形 区 域 。 

构造 kd 树 的 方法 如 下 : 构造 根 结 点 ,使 根 结 点 对 应 于 维 空间 中 包含 所 有 实例 
点 的 超 矩形 区 域 ; 通过 下 面 的 递归 方法 ,不断 地 对 维 空间 进行 切 分 , 生成 子 结 点 。 
在 超 矩 形 区 域 ( 结 点 ) 上 选择 一 个 坐标 轴 和 在 此 坐标 轴 上 的 一 个 切 分 点 ,确定 一 个 超 
平面 , 这 个 超 平面 通过 选 定 的 切 分 点 并 垂直 于 选 定 的 坐标 轴 , 将 当前 超 矩 形 区 域 切 分 
为 左右 两 个 子 区 域 ( 子 结 点 ); 这 时 ， 实 例 被 分 到 两 个 子 区 域 。 这 个 过 程 直到 子 区 域 
内 没有 实例 时 终止 (终止 时 的 结 点 为 叶 结 点 )。 在 此 过 程 中 , 将 实例 保存 在 相应 的 结 
点 上 。 


© kd 树 是 存储 k 维 空间 数据 的 树 结构 ,这 里 的 上 与 近邻 法 的 意义 不 同 , 为 了 与 习惯 一 致 , 本 
书 仍 用 ka 树 的 名 称 。 
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通常 ， 依 次 选择 坐标 轴 对 空间 切 分 ,选择 训练 实例 点 在 选 定 坐标 轴 上 的 中 位 
数 (median) 人为 切 分 点 , 这样 得 到 的 kd 树 是 平衡 的 。 注 意 , 平衡 的 kd 树 搜索 时 的 
效率 未 必 是 最 优 的 。 

下 面 给 出 构造 kd 树 的 算法 。 

算法 3.2 (构造 平衡 kd BD) 

输入 : k 维 空间 数据 集 T = {21,22,… an}, 其 中 mi = (zz aT, 
4=1,2,---,N; 

输出 : kd Bt. 

(1) 开始 : 构造 根 结 点 , 根 结 点 对 应 于 包含 的 维 空间 的 超 矩 形 区 域 。 

选择 2) 为 举 标 轴 , 以 T 中 所 有 实例 的 zx0) 坐标 的 中 位 数 为 切 分 点 ， 将 根 结 点 
对 应 的 超 和 矩形 区 域 切 分 为 两 个 子 区 域 。 切 分 由 通过 切 分 点 并 与 坐标 轴 z( 垂直 的 超 平 
面 实现 。 
1 根 结 点 生成 深度 为 1 的 左 、 右 子 结 点 : 左 子 结 点 对 应 坐标 z(0 小 于 切 分 点 的 子 
域 , 右 子 结 点 对 应 于 坐标 cD 大 于 切 分 点 的 子 区域 。 
将 落 在 切 分 超 平面 上 的 实例 点 保存 在 根 结 点 。 

(2) 重复 : 对 深度 为 了 的 结 点 , 选择 z( 为 切 分 的 坐标 轴 , 1 = j(mod k) +1, 以 
该 结 点 的 区 域 中 所 有 实例 的 a 坐标 的 中 位 数 为 切 分 点 ,将 该 结 点 对 应 的 超 和 矩形 区 域 
切 分 为 两 个 子 区 域 。 切 分 由 通过 切 分 点 并 与 坐标 轴 oO 垂直 的 超 平面 实现 。 
1 该 结 点 生成 深度 为 了 十 1 的 左 、 右 子 结 点 : 左 子 结 点 对 应 坐标 oO 小 于 切 分 点 
的 子 区 域 , 右 子 结 点 对 应 坐标 oO 大 于 切 分 点 的 子 区 域 。 
将 落 在 切 分 超 平面 上 的 实例 点 保存 在 该 结 点 。 
D 直到 两 个 子 区 域 没有 实例 存在 时 停止 。 从 而 形成 ka 树 的 区 域 划分 . n 
例 3.2 ”给 定 一 个 二 维 空间 的 数据 集 : 


Xl 


T = {(2,3)", (5, 4)7, (9,6)", (4, 7)", (8, 1)™, (7,2) 7} 


构造 一 个 平衡 kd W. 

解 ” 根 结 点 对 应 包含 数据 集 T 的 矩形 , 选择 oe) 轴 , 6 个 数据 点 的 zQ) 坐标 的 
位 数 是 7 O, 以 平面 rO = 7 将 空间 分 为 左 、 右 两 个 子 矩 形 〈 子 结 点 ); 接着 , 左 矩 
Ua?) = 4 分 为 两 个 子 和 矩形 , HEWA rO = 6 分 为 两 个 子 和 矩形 ,如 此 递归 , 最 后 得 
到 如 图 3.3 所 示 的 特征 空间 划分 和 如 图 3.4 所 示 的 kd 树 。 B 


U 


S 


@ 一 组 数据 按 大 小 顺序 排列 起 来 ， 处 在 中 间 位 置 的 一 个 数 或 最 中 间 两 个 数 的 平均 值 。 
© WÉ Wikipedia。 
© zG) = 6 是 中 位 数 , 但 z(D = 6 上 没有 数据 点 , 故 选 rO = 7。 
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N 
. 
1 


2 4 6 8 10 
图 3.3 ”特征 空间 划分 


图 3.4 kd 树 示例 


3.3.2 ”搜索 ka 树 


下 面 介绍 如 何 利 用 kd 树 进行 k 近邻 搜索 。 可 以 看 到 , 利用 kd 树 可 以 省 去 对 大 部 
分 数据 点 的 搜索 ,从 而 减少 搜索 的 计算 量 , 这 里 以 最 近邻 为 例 加 以 叙述 , 同样 的 方法 
可 以 应 用 到 大 近邻 。 

给 定 一 个 目标 点 , 搜索 其 最 近邻 。 首 先 找到 包含 目标 点 的 叶 结 点 ; 然后 从 该 叶 结 
点 出 发 , 依次 回 退 到 父 结 点 ; 不 断 查找 与 目标 点 最 邻近 的 结 点 ， 当 确定 不 可 能 存在 更 
近 的 结 点 时 终止 。 这 样 搜索 就 被 限制 在 空间 的 局 部 区 域 上 , 效率 大 为 提高 。 

包含 目标 点 的 叶 结 点 对 应 包含 目标 点 的 最 小 超 矩 形 区 域 。 以 此 叶 结 点 的 实例 点 作 
为 当前 最 近 点 。 目 标点 的 最 近邻 一 定 在 以 目标 点 为 中 心 并 通过 当前 最 近 点 的 超 球体 的 
内 部 (参阅 图 3.5)。 然 后 返回 当前 结 点 的 父 结 点 , 如 果 父 结 点 的 另 一 子 结 点 的 超 和 矩形 
区 域 与 超 球体 相交 , 那么 在 相交 的 区 域内 寻找 与 目标 点 更 近 的 实例 点 。 如 果 存 在 这 样 
的 点 , 将 此 点 作为 新 的 当前 最 近 点 。 算法 转 到 更 上 一 级 的 父 结 点 , 继续 上 述 过 程 。 如 
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果 父 结 点 的 另 一 子 结 点 的 超 矩 形 区 域 与 超 球 体 不 相交 , 或 不 存在 比 当前 最 近 点 更 近 的 
Fas 则 停止 搜索 。 

下 面 叙 述 用 kd 树 的 最 近邻 搜索 算法 。 

算法 3.3 (用 kd 树 的 最 近邻 搜索 ) 

输入 : 已 构造 的 kd 树 , 目标 点 zx; 

输出 : z 的 最 近邻 。 

(1) 在 kd 树 中 找 出 包含 目标 点 z 的 叶 结 点 : 从 根 结 点 出 发 , 递归 地 向 下 访问 kd 
树 。 若 目标 点 z 当前 维 的 坐标 小 于 切 分 点 的 坐标 , 则 移动 到 左 子 结 点 , 否则 移动 到 左 
子 结 点 。 直 到 子 结 点 为 叶 结 点 为 止 。 

(2) 以 此 叶 结 点 为 “当前 最 近 点 ”。 

(3) 递归 地 向 上 回 退 , 在 每 个 结 点 进行 以 下 操作 : 

Ca) 如 果 该 结 点 保存 的 实例 点 比 当前 最 近 点 距离 目标 点 更 近 , 则 以 该 实例 点 

为 “当前 最 近 点 ”。 

Cb) 当前 最 近 点 一 定 存在 于 该 结 点 一 个 子 结 点 对 应 的 区 域 。 检查 该 子 结 点 的 父 

结 点 的 男 一 子 结 点 对 应 的 区 域 是 否 有 更 近 的 点 。 具体 地 , 检查 另 一 子 结 点 对 应 的 
区 域 是 否 与 以 目标 点 为 球 心 、 以 目标 点 与 “当前 最 近 点 ” 间 的 距离 为 半径 的 超 球体 

相交 。 

如 果 相 交 , 可 能 在 男 一 个 子 结 点 对 应 的 区 域内 存在 距 目 标点 更 近 的 点 , 移动 

到 另 一 个 子 结 点 。 接 着 , 递归 地 进行 最 近邻 搜索 ; 

如 果 不 相交 , 向 上 回 退 。 

(4) 当 回 退 到 根 结 点 时 , 搜索 结束 。 最 后 的 “当前 最 近 点 ” 即 为 z 的 最 近邻 点 。 国 

如 果实 例 点 是 随机 分 布 的 ，kd 树 搜索 的 平均 计算 复杂 度 是 O(log N), 这 里 入 是 
训练 实例 数 。kd 树 更 适用 于 训练 实例 数 远大 于 空间 维 数 时 的 大 近邻 搜索 。 当 空间 维 数 
接近 训练 实例 数 时 , 它 的 效率 会 迅速 下 降 ， 几乎 接近 线性 扫描 。 

下 面 通过 一 个 例题 来 说 明 搜 索 方法 。 

例 3.3 给 定 一 个 如 图 3.5 所 示 的 kd W, 根 结 点 为 4， 其 子 结 点 为 B, C 等 。 树 
上 共存 储 7 个 实例 点 ; 另 有 一 个 输入 目标 实例 点 9, R 5S 的 最 近邻 。 

解 首先 在 kd 树 中 找到 包含 点 5 的 叶 结 点 D (图 中 的 右 下 区 域 ), 以 点 D 作为 
近似 最 近邻 。 真正 最 近邻 一 定 在 以 点 5S 为 中 心 通过 点 D 的 圆 的 内 部 。 然 后 返回 结 点 
D 的 父 结 点 B, HAA B 的 男 一 子 结 点 下 的 区 域内 搜索 最 近邻 。 结 点 的 区 域 与 圆 
不 相交 , 不 可 能 有 最 近邻 点 。 继续 返回 上 一 级 父 结 点 A, 在 结 点 4 的 另 一 子 结 点 C 的 
区 域内 搜索 最 近邻 。 结 点 C 的 区 域 与 圆 相交 ; 该 区 域 在 圆 内 的 实例 点 有 点 E A E E 
点 D 更 近 , 成 为 新 的 最 近邻 近似 。 最 后 得 到 点 EB 是 点 8 的 最 近邻 。 B 
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o G 


图 3.5 ”通过 kd 树 搜索 最 近邻 


本 章 概 要 


1. k 近邻 法 是 基本 且 简 单 的 分 类 与 回归 方法 。k 近邻 法 的 基本 做 法 是 : 对 给 定 的 
训练 实例 点 和 输入 实例 点 , 首先 确定 输入 实例 点 的 个 最 近邻 训练 实例 点 , 然后 利用 
这 个 训练 实例 点 的 类 的 多 数 来 预测 输入 实例 点 的 类 。 

2. k 近邻 模型 对 应 于 基于 训练 数据 集 对 特征 空间 的 一 个 划分 。k 近邻 法 中 ， 当 训 
练 集 、 距 离 度量 、k 值 及 分 类 决策 规则 确定 后 , 其 结果 唯一 确定 。 

3. k 近邻 法 三 要 素 : 距离 度量 、k 值 的 选择 和 分 类 决策 规则 。 常用 的 距离 度量 是 欧 
氏 距 离 及 更 一 般 的 Lp 距离 。k 值 小 时 , k 近邻 模型 更 复杂 ; k 值 大 时 , k 近邻 模型 更 
简单 。k 值 的 选择 反映 了 对 近似 误差 与 估计 误差 之 间 的 权衡 , 通常 由 交叉 验证 选择 最 
优 的 有 。 常 用 的 分 类 决策 规则 是 多 数 表决 , 对 应 于 经 验 风险 最 小 化 。 

4 大 近邻 法 的 实现 需要 考虑 如 何 快速 搜索 个 最 近邻 点 。kd 树 是 一 种 便于 对 大 
维 空间 中 的 数据 进行 快速 检索 的 数据 结构 。kd 树 是 二 又 树 ， 表示 对 大 维 空间 的 一 个 划 
分 ， 其 每 个 结 点 对 应 于 维 空间 划分 中 的 一 个 超 和 矩形 区 域 。 利用 kd 树 可 以 省 去 对 大 
部 分 数据 点 的 搜索 ， 从 而 减少 搜索 的 计算 量 。 


继续 阅读 


k 近邻 法 由 Cover 与 Hart 提出 钙 。 大 近邻 法 相关 的 理论 在 文献 [2, 3] POA 
述 。k 近邻 法 的 扩展 可 参考 文献 [4]. kd 树 及 其 他 快速 搜索 算法 可 参见 文献 5]。 关 于 大 
近邻 法 的 介绍 可 参考 文献 [2]。 
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3.1 参照 图 3.1, 在 二 维 空间 中 给 出 实例 点 , MH kA 1A 2 时 的 k 近邻 法 构成 
的 空间 划分 并 对 其 进行 比较 , 体会 值 选 择 与 模型 复杂 度 及 预测 准确 率 的 关系 。 


3.2 ”利用 例题 3.2 构造 的 kd BKA x= (3,4.5) 的 最 近邻 点 。 
3.3 ”参照 算法 3.3, 写 出 输出 为 x 的 近邻 的 算法 。 
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第 4 章 ， 朴素 贝 叶 斯 法 


朴素 贝 叶 斯 Cnaive Bayes) 法 是 基于 贝 叶 斯 定理 与 特征 条 件 独立 假设 的 分 类 方 
法 ,对 于 给 定 的 训练 数据 集 , 首先 基于 特征 条 件 独立 假设 学 习 输 入 输出 的 联合 概率 
分 布 ; 然后 基于 此 模型 ,对 给 定 的 输入 z, 利用 贝 叶 斯 定理 求 出 后 验 概率 最 大 的 输 ! 
yo 朴素 贝 叶 斯 法 实现 简单 ， 学 习 与 预测 的 效率 都 很 高 ,是 一 种 常用 的 方法 。 

本 章 叙 述 朴素 贝 叶 斯 法 ,包括 朴素 贝 叶 斯 法 的 学 习 与 分 类 、 朴 素 贝 叶 斯 法 的 参数 
估计 算法 。 


4.1 朴素 贝 叶 斯 法 的 学 习 与 分 类 


4.1.1 基本 方法 


HMAT X CR" An 维 向 量 的 集合 , 输出 空间 为 类 标记 集合 Y = 
{ci1,c2，,… ,CK}。 输 入 为 特征 向 量 z e x, 输出 为 类 标记 (class label) y € Ye X 
是 定义 在 输入 空间 区 上 的 随机 向 量 , Y 是 定义 在 输出 空间 2 上 的 随机 变量 .。 P(X,Y) 
EX AY 的 联合 概率 分 布 。 训 练 数据 集 

T = {(21, 41), (v2, y2),--- , (aw, yw) } 
由 P(X, Y) 独立 同 分 布 产生 。 

朴素 贝 叶 斯 法 通过 训练 数据 集 学 习 联合 概率 分 布 P(X,Y)。 具体 地 , 学 习 以 下 先 

验 概率 分 布 及 条 件 概 率 分 布 。 先 验 概率 分 布 


P(Y =c), k=1,2,---,K (4.1) 


O 注意 : 朴素 贝 叶 斯 法 与 贝 叶 斯 估计 (Bayesian estimation) 是 不 同 的 概念 。 
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条 件 概率 分 布 


P(X=zlY = ck) = P(X =2%,..., XM =eM|Y =e), k=1,2,---,K 
(4.2) 
于 是 学 习 到 联合 概率 分 布 P(X,Y)。 
条 件 概率 分 布 P(X = z|Y = cr) 有 指数 级 数量 的 参数 , 其 估计 实际 是 不 可 行 的 。 
事实 上 , 假设 z0) 可 取 值 有 S; 个 , j =1,2,---,n, Y TRHA K 个 , 那么 参数 个 数 
AK] Si 


j=l 


朴素 贝 叶 斯 法 对 条 件 概率 分 布 作 了 条 件 独 立 性 的 假设 。 由 于 这 是 一 个 较 强 的 假 
设 ,朴素 贝 叶 斯 法 也 由 此 得 名 。 有 具体 地 , 条 件 独立 性 假设 是 


P(X=zlY = cx) = P(X =z0,X =z7 = c) 


n 
= [[ PX = 2 lv = cr) (4.3) 
j=1 


朴素 贝 叶 斯 法 实际 上 学 习 到 生成 数据 的 机 制 , 所 以 属于 生成 模型 。 条件 独 立 假设 
等 于 是 说 用 于 分 类 的 特征 在 类 确定 的 条 件 下 都 是 条 件 独 立 的 。 这 一 假设 使 朴素 贝 叶 斯 
法 变 得 简单 , 但 有 时 会 牺牲 一 定 的 分 类 准确 率 。 

朴素 贝 叶 斯 法 分 类 时 ， 对 给 定 的 输入 xz, 通过 学 习 到 的 模型 计算 后 验 概率 分 布 
P(Y = ck|X = 2), 将 后 验 概率 最 大 的 类 作为 z 的 类 输出 。 后 验 概率 计算 根据 贝 叶 斯 
定理 进行 : 


P(X = z|Y = ck)P(Y = cx) 


P(Y = &|X =2) = 4.4 
Ecem) SPX = al¥ = cx) P(Y = cx) (44) 
k 
将 式 (4.3) RAR (4.4), 有 
P(Y = cx) [[ PXO = zol7 = cx) 
P(Y X 了 . Ba 12,08 K 
eee SPY = cx) [] P(X = 2 ¥ = c) 
: i (4.5) 
这 是 朴素 贝 叶 斯 法 分 类 的 基本 公式 。 于 是 , 朴素 贝 叶 斯 分 类 器 可 表示 为 
PY = cx) [[ P(X® =z27 = c) 
y = f(x) = arg max i (4.6) 


ck > PC = cr) [[ P(X9) = zY = c) 


k 了 
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注意 到 , 在 式 (4.6) 中 分 母 对 所 有 cx 都 是 相同 的 , 所 以 ， 


y = arg max P(Y = cx) | | P(X® = 1OY = cx) (4.7) 
Ck h 
j 


4.1.2 后 验 概率 最 大 化 的 含义 


朴素 贝 叶 斯 法 将 实例 分 到 后 验 概率 最 大 的 类 中 。 这 等 价 于 期 望 风险 最 小 化 。 假设 
选择 0-1 损失 函数 : 


1, YA f(X) 
0, Y=f(X) 
AF f(X) 是 分 类 决策 函数 。 这 时 ， 期 望 风 险 函 数 为 


LY, f(X)) = | 


Rexp(f) = EIL(Y, f(X))] 
期 望 是 对 联合 分 布 P(X,Y) 取 的 。 由 此 取 条 件 期 户 
Rexp(f) = Bx 3 [L(ce, f(X))]P (cx X) 
为 了 使 期 望 风 险 最 小 化 , 只 需 对 X = z 逐个 极 小 化 ,由 此 得 到 : 


K 
f(x) = argmin 》 L(ce,y)P(c|X = 2) 
yey kel 


K 
= i P Pe 
arg mig 3, (y A cK|X = 1) 


in(1 — P(y = cr|X = 
arg min( (y = cx|X = 2)) 


= Ply =¢|X = 
arg max (y = |X = 2) 


这 样 一 来 , 根据 期 望 风险 最 小 化 准则 就 得 到 了 后 验 概率 最 大 化 准则 : 
f(x) = argmax P(ce|X = 2) 


即 朴素 贝 叶 斯 法 所 采用 的 原理 。 
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4.2 ”朴素 贝 叶 斯 法 的 参数 估计 


4.2.1 极 大 似 然 估计 


在 朴素 贝 叶 斯 法 中 , 学 习 意味 着 估计 P(Y = cy) 和 P(X = OY = c)s 可 以 
应 用 极 大 似 然 估计 法 估计 相应 的 概率 。 先 验 概率 PY = ck) 的 极 大 似 然 估 计 是 


N 
Yo Tui = cx) 
i=1 

i ， 
设 第 7 个 特征 z0) 可 能 取 值 的 集合 为 {ajii,aj2,… ajs; p 条 件 概率 P(X = aj|Y = 
ck) 的 极 大 似 然 估计 是 


P(Y = cx) k=1,2,---,K (4.8) 


N Ps 
YOP = ajyi = cx) 
P(X = ajlY = ck) = = 


j=1,2 yn; l=1,2 ,8;; k=1,2,.,K (4.9) 


RP, z0) 是 第 ; 个 样本 的 第 了 个 特征 ; age 是 第 j 个 特征 可 能 取 的 第 1 个 值 ; 了 为 指 


42.2 ”学 习 与 分 类 算法 


下 面 给 出 朴素 贝 叶 斯 法 的 学 习 与 分 类 算法 。 

算法 4.1 (朴素 贝 叶 斯 算法 (naïve Bayes algorithm) ) 

输入 : 训练 数据 下 = {(01, 91), (8292) s (EN yn) p 其 中 = (2,0, , 
a™)T, 2 是 第 i 个 样本 的 第 j 个 特征 , 2 © {aj1,ajo,--- ajs, p aj 是 第 j 个 特 
征 可 能 取 的 第 1 个 值 , j = 1,2,--- ,mn 1=1,2,.… Sj, yi € {c1;c2,… ,CK}; 实例 zi; 

输出 : 实例 x 的 分 类 。 

(1) 计算 先 验 概率 及 条 件 概率 


N 
> Ty = ce) 


P(Y = cp) == 


= = 1, diss K 
Wo REL 
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N r 
> Ta = aj1,Yi = Ck) 
P(X = oil = cy) = = 


G=1,2,---,n, Ll=1,2,. ,5;; k=1,2,--- 
(2) 对 于 给 定 的 实例 z = (1,1, 2™)T, 计算 


PY =c) [[ PXO =2|¥ =e), &=1,2,---,K 
j=l 


(3) 确定 实例 z 的 类 


n 
y= arg max P(Y cr) [[ P(X = 2 |¥ = cx) B 
jal 


Bl 4.1 试 的 训练 数据 学 习 一 个 朴素 贝 叶 斯 分 类 器 并 确定 x = (2,5)7 
的 类 标记 y。 表 中 XY, XO 为 特征 ， 取 值 的 集合 分 别 为 A = {1,23} Ao = 
{S,M,L}, Y 为 类 标记 , Y €C = {1, 一 1}。 


表 4.1 ”训练 数据 
1 2 3 4 5 6 7 8 9 10 1 12 13 14 15 
XY 1 ie 4; Fa - | 2 2 2 2 2 8 3 3 3 8 
x? S M MS § S MM LL LMM LL 
Y ai a a e 8? at a a. 1 1 P ot a1 


9 6 
P= De POS 
P(X® =1|Y =1) 5, P(X =2IY =1) = 5, P(X® =3|Y =1)=— 
P(X® = SY =1)= A P(X® = MIY =1) s, P(X® = LY =1) = 


2 1 
P(X® =1|Y = -1) = 5, P(XW =2Y = -1) = F P(X® =3Y = -1) = s 


P(X® = SIY = -1) = =, P(X® = M|Y = -1) = 5, P(X® = LIY = -1) = ; 
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对 于 给 定 的 z = (2, 5)7 计算 : 


9 31 1 
P(Y =1)P(X® =2|Y (2) e 
( )P( |Y = DP(X S|Y = 1) °9°9° SB 
6 23 1 
P(Y = —1)P(X® =2|y 1)P(x®) Y 1 ee 
( )P( | )P( S| )= 6 o 


因为 P(Y = -DPCXG) =2|Y = -DPCXC) = SIY =-1) RK, 所 以 y= 一 1。 m 


4.2.3” 贝 叶 斯 估计 


3 极 大 似 然 估 计 可 能 会 出 现 所 要 估计 的 概率 值 为 0 的 情况 。 这 时 会 影响 到 后 验 概 
率 的 计算 结果 , 使 分 类 产生 偏差 。 解决 这 一 问题 的 方法 是 采用 贝 叶 斯 估计 。 具体 地 , 条 
件 概率 的 贝 叶 斯 估计 是 


N 
via? = Qj1,Yi = Ck) +A 


P(X = anlY = Ck) = i=l (4.10) 


N 
X Ily = ck) + Sj 和 
i=1 

AF 入 > 0. 等 价 于 在 随机 变量 各 个 取 值 的 频数 上 赋予 一 个 正 数 入 > 0。 当 入 = 0 时 就 
是 极 大 似 然 估计 。 常 取 入 = 1, 这 时 称 为 拉 普 拉 斯 平滑 (Laplacian smoothing) 。 显 然 ， 
WHET 1=1,2,---,9j,k=1,2,---, Ke 有 


P (XO =anlY = ck) > 0 


Sj 
> PXO =al Y = cx) =1 
l=1 


表明 式 (4.10) 确 为 一 种 概率 分 布 。 同 样 , 先 验 概率 的 贝 叶 斯 估计 是 


N 
Do Ty = cx) + 


P\(Y = ck) = = eee (4.11) 


例 4.2 问题 同 例 4.1, 按照 拉 普 拉 斯 平滑 估计 概率 , 即 取 入 = 1. 
解 A, = {1,2,3}, Ao = {S, M, L}, C = {1 -1}。 按照 式 (4.10) 和 式 (4.11) 计 
算 下 列 概率 : 
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1 3 1 4 7 
P(X® =1¥ =1)= 5, P(X =2|Y =1) e P(X® =3Y =1)= 5 
P(X® = SY =1)= 2. P(X® = M|Y =1)= 5, P(X® = LY =1)= 2 
12 12 12 
4 3 2 
P(X® = 1IY = -1) = 7 P(X =2|Y = -1) = 5 P(X =3]Y = -1) = 


4 2 
P(X® = sly =-1) = F P(X® = M|Y = -1) = 5, P(X® = LY = -1)= : 


对 于 给 定 的 z = (2,S)7, 计算 : 


P(Y =1)P(X® =Y =1)P(X® = Sly =1) aa 证 0.0327 


P(Y = -1)) P(X =2|Y = -1)P(X® = sly = -1) ee 


HF P(Y = -1)P(X® =2|Y = -1)P(X® = S|Y =-1) ÈK, 所 以 y= 一 1。 B 


本 章 概 要 


1. 朴素 贝 叶 斯 法 是 典型 的 生成 学 习 方 法 。 生 成 方法 由 训练 数据 学 习 联 合 概率 分 布 
已 (X,Y)， 然 后 求 得 后 验 概率 分 布 P(Y|X)。 具 体 来 说 , 利用 训练 数据 学 习 P(XIY) 和 
P(Y) 的 估计 , 得 到 联合 概率 分 布 : 


P(X,Y) = P(Y)P(X|Y) 


概率 估计 方法 可 以 是 极 大 似 然 估 计 或 贝 叶 斯 估计 。 
2. 朴素 贝 叶 斯 法 的 基本 假设 是 条 件 独立 性 ， 


P(X =2|¥ = ck) = P(X® =2,.-. XM = 7 = cx) 


= II P(x) = rly = cr) 
j=l 

这 是 一 个 较 强 的 假设 。 由 于 这 一 假设 , 模型 包含 的 条 件 概率 的 数量 大 为 减少 , APE 
叶 斯 法 的 学 习 与 预测 大 为 简化 。 因 而 朴素 贝 叶 斯 法 高 效 ， 且 易于 实现 。 其 缺点 是 分 类 
的 性 能 不 一 定 很 高 。 

3. 朴素 贝 叶 斯 法 利用 贝 叶 斯 定理 与 学 到 的 联合 概率 模型 进行 分 类 预测 。 
P(X,Y) _ _PY)P(XIY) 

PX) pG )P(X|Y) 


P(Y|X) = 
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将 输入 z 分 到 后 验 概率 最 大 的 类 yo 


n 
y = arg max P(Y = cx) Il P(X; =2|Y = cx) 
Ck je 


后 验 概 率 最 大 等 价 于 0-1 损失 函数 时 的 期 望 风 险 最 小 化 。 


继续 阅读 


朴素 贝 叶 斯 法 的 介绍 可 见 文献 [1, 3。 朴素 贝 叶 斯 法 中 假设 输入 变量 都 是 条 件 独立 
的 , 如 果 假设 它们 之 间 存 在 概率 依存 关系 , 模型 就 变 成 了 贝 叶 斯 网 络 , 参见 文献 [3]。 
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4.1 用 极 大 似 然 估计 法 推出 朴素 贝 叶 斯 法 中 的 概率 估计 公式 (4.8) 及 公式 (4.9)。 
4.2 用 贝 叶 斯 估计 法 推出 朴素 贝 叶 斯 法 中 的 概率 估计 公式 (4.10) 及 公式 (4.11)。 
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第 5 章 A R 树 


决策 树 (decision tree) 是 一 种 基本 的 分 类 与 回归 方法 。 本 章 主要 讨论 用 于 分 类 
的 决策 树 。 决 策 树 模型 呈 树 形 结构 ,在 分 类 问题 中 ,表示 基于 特征 对 实例 进行 分 类 
的 过 程 。 它 可 以 认为 是 还 then 规则 的 集合 ， 也 可 以 认为 是 定义 在 特征 空间 与 类 空 
间 上 的 条 件 概率 分 布 。 其 主要 优点 是 模型 具有 可 读 性 ， 分 类 速度 快 。 学 习 时 ， 利 用 
训练 数据 ,根据 损失 函数 最 小 化 的 原则 建立 决策 树 模 型 。 预 测 时 ， 对 新 的 数据 ,， 利 
用 决策 树 模 型 进行 分 类 。 决 策 树 学 习 通 常 包括 3 个 步骤 : 特征 选择 、 决 策 树 的 生成 
和 决策 树 的 修剪 。 这 些 决策 树 学 习 的 思想 主要 来 源 于 由 Quinlan 在 1986 年 提出 的 
ID3 算法 和 1993 年 提出 的 C4.5 算法 , 以 及 由 Breiman 等 人 在 1984 年 提出 的 CART 
算法 。 

本 章 首先 介绍 决策 树 的 基本 概念 , 然后 通过 ID3 和 C4.5 介绍 特征 的 选择 、 决策 
树 的 生成 以 及 决策 树 的 修剪 , 最 后 介绍 CART 算法 。 
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5.1.1 决策 树 模型 


定义 5.1 (决策 树 ) ”分 类 决策 树 模型 是 一 种 描述 对 实例 进行 分 类 的 树 形 结构 。 
决策 树 由 结 点 (node) 和 有 向 边 (directed edge) 组 成 。 结 点 有 两 种 类 型 : 内 部 结 
点 (internal node ) 和 叶 结 点 (leaf node ) 。 内 部 结 点 表示 一 个 特征 或 属性 ， 叶 结 点 表 
示 一 个 类 。 
决策 树 分 类 ,从 根 结 点 开始 , 对 实例 的 某 一 特征 进行 测试 , 根据 测试 结果 , 将 实 
例 分 配 到 其 子 结 点 ; 这 时 , 每 一 个 子 结 点 对 应 着 该 特征 的 一 个 取 值 。 如 此 递归 地 对 实 
例 进行 测试 并 分 配 , 直至 达到 叶 结 点 。 最 后 将 实例 分 到 叶 结 点 的 类 中 。 
图 5.1 是 一 个 决策 树 的 示意 图 。 图 中 贺 和 方 框 分 别 表示 内 部 结 点 和 叶 结 点 。 
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| 


l | O 
图 5.1 ”决策 树 模型 


5.1.2 ”决策 树 与 if-then 规则 


可 以 将 决策 树 看 成 一 个 于 then 规则 的 集合 。 将 决策 树 转换 成 下 then 规则 的 过 程 
是 这 样 的 : 由 决策 树 的 根 结 点 到 叶 结 点 的 每 一 条 路 径 构建 一 条 规则 ; 路 径 上 内 部 结 点 
的 特征 对 应 着 规则 的 条 件 , 而 叶 结 点 的 类 对 应 着 规则 的 结论 。 决策 树 的 路 径 或 其 对 应 
的 ifthen 规则 集合 具有 一 个 重要 的 性 质 : 互 斥 并 且 完备 。 这 就 是 说 ,每 一 个 实例 都 被 
一 条 路 径 或 一 条 规则 所 覆盖 ,而 且 只 被 一 条 路 径 或 一 条 规则 所 覆盖 。 这 里 所 谓 覆 盖 是 
指 实例 的 特征 与 路 径 上 的 特征 一 致 或 实例 满足 规则 的 条 件 。 


5.1.3 ”决策 树 与 条 件 概 率 分 布 


决策 树 还 表示 给 定 特征 条 件 下 类 的 条 件 概率 分 布 。 这 一 条 件 概率 分 布 定义 在 特 
征 空间 的 一 个 划分 (partition) 上。 将 特征 空间 划分 为 互 不 相交 的 单元 (cell) 或 区 
域 (region)， 并 在 每 个 单元 定义 一 个 类 的 概率 分 布 就 构成 了 一 个 条 件 概 率 分 布 。 决 
策 树 的 一 条 路 径 对 应 于 划分 中 的 一 个 单元 。 决 策 树 所 表示 的 条 件 概 率 分 布 由 各 个 单 
元 给 定 条 件 下 类 的 条 件 概率 分 布 组 成 。 假 设 X 为 表示 特征 的 随机 变量 , Y 为 表示 类 
的 随机 变量 ,那么 这 个 条 件 概率 分 布 可 以 表示 为 P(Y|X)。X 取 值 于 给 定 划分 下 单 
元 的 集合 , Y 取 值 于 类 的 集合 。 各 叶 结 点 (单元 ) 上 的 条 件 概率 往往 偏向 某 一 个 类 ， 
即 属 于 某 一 类 的 概率 较 大 。 决 策 树 分 类 时 将 该 结 点 的 实例 强行 分 到 条 件 概率 大 的 那 
一 类 去 。 

图 5.2 (a) 示意 地 表示 了 特征 空间 的 一 个 划分 。 图 中 的 大 正方 形 表示 特征 空间 。 
这 个 大 正方 形 被 若干 个 小 矩形 分 割 ， 每 个 小 矩形 表示 一 个 单元 。 特征 空间 划分 上 的 单 
元 构成 了 一 个 集合 , X 取 值 为 单元 的 集合 。 为 简单 起 见 , 假设 只 有 两 类 : 正 类 和 负 类 ， 
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BY 取 值 为 +1 和 -1。 小 矩形 中 的 数字 表示 单元 的 类 。 图 5.2 Cb) 示意 地 表示 特征 空 
间 划 分 确定 时 , 特征 (单元 ) 给 定 条 件 下 类 的 条 件 概率 分 布 。 图 5.2 Cb) 中 条 件 概率 分 
布 对 应 于 图 5.2 Ca) 的 划分 。 当 某 个 单元 c 的 条 件 概率 满足 P(Y = +1|X =c) > 0.5 
时 ， 则 认为 这 个 单元 属于 正 类 , 即 落 在 这 个 单元 的 实例 都 被 视 为 正 例 。 图 5.2 Cc) 为 对 
应 于 图 5.2 (b) 中 条 件 概 率 分 布 的 决策 树 。 


x2) 
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P(Y=+1|X) 
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ay 1 xD 


(a) 特征 空间 划分 (b) 条 件 概率 分 布 


v02) 
xW<a, x) >a; 


[=] 


(c) GRE 
图 5.2 ”决策 树 对 应 于 条 件 概率 分 布 


5.1.4 决策 树 学 习 
假设 给 定 训练 数据 集 
D = {(a1,41); (2, y2),--- , (tn, yw)} 


其 中 ,zi = (zz T 为 输入 实例 (特征 向 量 ), n 为 特征 个 数 ，W € 
ioe By oe N. ed 
定 的 训练 数据 集 构建 一 个 决策 树 模 型 ,使 它 能 够 对 实例 进行 正确 的 分 类 。 
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决策 树 学 习 本 质 上 是 从 训练 数据 集中 归纳 出 一 组 分 类 规则 。 与 训练 数据 集 不 相 矛 
盾 的 决策 树 〈 即 能 对 训练 数据 进行 正确 分 类 的 决策 树 ) 可 能 有 多 个 ,也 可 能 一 个 都 没 
有 。 我 们 需要 的 是 一 个 与 训练 数据 矛盾 较 小 的 决策 树 ， 同 时 具有 很 好 的 泛 化 能 力 。 从 
男 一 个 角度 看 , 决策 树 学 习 是 由 训练 数据 集 估 计 条 件 概率 模型 。 基于 特征 空间 划分 的 
类 
的 


的 条 件 概率 模型 有 无 穷 多 个 。 我 们 选择 的 条 件 概率 模型 应 该 不 仅 对 训练 数据 有 很 好 
拟 合 , 而 且 对 未 知 数据 有 很 好 的 预测 。 
决策 树 学 习 用 损失 函数 表示 这 一 目标 。 如 下 所 述 , 决策 树 学 习 的 损失 函数 通常 是 
正则 化 的 极 大 似 然 函数 。 决 策 树 学 习 的 策略 是 以 损失 函数 为 目标 函数 的 最 小 化 。 
当 损 失 函 数 确定 以 后 ,学 习 问 题 就 变 为 在 损失 函数 意义 下 选择 最 优 决策 树 的 问 
题 。 因为 从 所 有 可 能 的 决策 树 中 选取 最 优 决 策 树 是 NP 完全 问题 , 所 以 现实 中 决策 树 
学 习 算法 通常 采用 启发 式 方法 , 近似 求解 这 一 最 优化 问题 。 这 样 得 到 的 决策 树 是 次 最 
优 (sub-optimal) 的 。 
决策 树 学 习 的 算法 通常 是 一 个 递归 地 选择 最 优 特征 ,并 根据 该 特征 对 训练 数据 进 
行 分 割 ， 使 得 对 各 个 子 数据 集 有 一 个 最 好 的 分 类 的 过 程 。 这 一 过 程 对 应 着 对 特征 空间 
的 划分 ， 也 对 应 着 决策 树 的 构建 。 开 始 , 构建 根 结 点 , 将 所 有 训练 数据 都 放 在 根 结 点 。 
选择 一 个 最 优 特征 , 按照 这 一 特征 将 训练 数据 集 分 割 成 子 集 , 使 得 各 个 子 集 有 一 个 在 
当前 条 件 下 最 好 的 分 类 。 如 果 这 些 子 集 已 经 能 够 被 基本 正确 分 类 ， 那么 构建 叶 结 点 ， 
并 将 这 些 子 集 分 到 所 对 应 的 叶 结 点 中 去 ; 如 果 还 有 子 集 不 能 被 基本 正确 分 类 ， 那么 就 
对 这 些 子 集 选择 新 的 最 优 特征 , 继续 对 其 进行 分 割 , 构建 相应 的 结 点 。 如 此 递归 地 
行 下 去 , 直至 所 有 训练 数据 子 集 被 基本 正确 分 类 , 或 者 没有 合适 的 特征 为 止 。 最 后 每 
个 子 集 都 被 分 到 叶 结 点 上 , 即 都 有 了 明确 的 类 。 这 就 生成 了 一 棵 决策 树 。 

以 上 方法 生成 的 决策 树 可 能 对 训练 数据 有 很 好 的 分 类 能 力 , 但 对 未 知 的 测试 数据 
未 必 有 很 好 的 分 类 能 力 , 即 可 能 发 生 过 拟 合 现象 。 我 们 需要 对 已 生成 的 树 自 下 而 上 
BET BURL, 将 树 变 得 更 简单 , 从 而 使 它 具 有 更 好 的 泛 化 能 力 。 具体 地 , 就 是 去 掉 过 于 细 
分 的 叶 结 点 , 使 其 回 退 到 父 结 点 ,甚至 更 高 的 结 点 , 然后 将 父 结 点 或 更 高 的 结 点 改 为 
新 的 叶 结 点 。 

如 果 特 征 数量 很 多 , 也 可 以 在 决策 树 学 习 开始 的 时 候 , 对 特征 进行 选择 , 只 留 下 
训练 数据 有 足够 分 类 能 力 的 特征 。 

可 以 看 出 ,决策 树 学 习 算 法 包含 特征 选择 、 决 策 树 的 生成 与 决策 树 的 剪 枝 过 程 。 
由 于 决策 树 表 示 一 个 条 件 概率 分 布 , 所 以 深浅 不 同 的 决策 树 对 应 着 不 同 复杂 度 的 概率 
模型 。 决 策 树 的 生成 对 应 于 模型 的 局 部 选择 , 决策 树 的 剪 枝 对 应 于 模型 的 全 局 选择 。 
决策 树 的 生成 只 考虑 局 部 最 优 ， 相 对 地 , 决策 树 的 前 校 则 考虑 全 局 最 优 。 


决策 树 学 习 常 用 的 算法 有 ID3、C4.5 与 CART, 下 面 结合 这 些 算法 分 别 叙述 决策 
树 学 习 的 特征 选择 、 决 策 树 的 生成 和 剪 枝 过 程 。 
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5.2 特征 选择 


5.2.1 ”特征 选择 问题 


特征 选择 在 于 选取 对 训练 数据 具有 分 类 能 力 的 特征 。 这 样 可 以 提高 决策 树 学 习 的 


效率 。 如 果 利 用 一 个 特征 进行 分 类 的 结果 与 随机 分 类 的 结果 没有 很 大 差别 , 则 称 这 个 
特征 是 没有 分 类 能 力 的 。 经 验 上 扔 掉 这 样 的 特征 对 决策 树 学 习 的 精度 影响 不 大 。 通常 


特征 选择 的 准则 是 信息 增益 或 信息 增益 比 。 
首先 通过 一 个 例子 来 说 明 特征 选择 问题 。 


例 5.10 表 5.1 是 一 个 由 15 个 样本 组 成 的 贷款 申请 训练 数据 。 数据 包括 贷款 申 


请 人 的 4 个 特征 (属性): 第 1 个 特征 是 年 龄 , 有 3 个 可 能 值 : 青年 ,中 年 ， 老 和 


E 第 


2 个 特征 是 有 工作 , 有 2 个 可 能 值 : 是 , 否 ; 第 3 个 特征 是 有 自己 的 房子 , 有 2 个 可 能 


值 : 是 , 否 ; 第 4 个 特征 是 信贷 情况 , 有 3 个 可 能 值 : 非常 好 
列 是 类 别 , 是 否 同 意 贷款 , 取 2 个 值 : 是 , 否 。 


表 5.1 ”贷款 申请 样本 数据 表 


后 


ID 年 龄 有 工作 有 自己 的 房子 信贷 情况 类 别 

1 青年 a T 一 般 T 

2 青年 a a 好 T 

3 青年 是 否 好 是 

4 青年 是 是 一 般 是 

5 青年 F a 一 般 F 

6 中 年 A F 一 般 T 

7 H4 否 T 好 T 

8 hé 是 是 好 是 

9 中 年 F 是 非常 好 是 

10 中 年 a 是 非常 好 是 

11 #4 否 是 非常 好 是 

12 老年 F 是 好 是 

13 老年 是 a 好 是 

14 老生 是 否 非常 好 是 

15 老年 T 否 一 般 T 

希望 通过 所 给 的 训练 数据 学 习 一 个 贷款 申请 的 决策 树 , 用 以 对 未 来 的 贷款 申请 i 

行 分 类 , 即 当 新 的 客户 提出 贷款 申请 时 , 根据 申请 人 的 特征 利用 决策 树 决定 是 否 批准 
贷款 申请 。 a 


特征 选择 是 决定 用 哪个 特征 来 划分 特征 空间 。 
© 此 例 取 自 参 考 文献 [5] 。 
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图 5.3 表示 从 表 5.1 数据 学 习 到 的 两 个 可 能 的 决策 树 , 分 别 由 两 个 不 同 特征 的 根 
结 点 构成 。 图 5.3 (a) 所 示 的 根 结 点 的 特征 是 年 龄 , 有 3 个 取 值 , 对 应 于 不 同 的 取 值 有 
不 同 的 子 结 点 。 图 5.3 Cb) 所 示 的 根 结 点 的 特征 是 有 工作 , 有 2 个 取 值 , 对 应 于 不 同 的 
取 值 有 不 同 的 子 结 点 。 两 个 决策 树 都 可 以 从 此 延续 下 去 。 问题 是 : 究竟 选择 哪个 特征 
更 好 些 ? 这 就 要 求 确定 选择 特征 的 准则 。 直观 上 , 如 果 一 个 特征 具有 更 好 的 分 类 能 力 ， 
或 者 说 ,按照 这 一 特征 将 训练 数据 集 分 割 成 子 集 ， 使 得 各 个 子 集 在 当前 条 件 下 有 最 好 
的 分 类 , 那么 就 更 应 该 选择 这 个 特征 。 信 息 增 益 (information gain) 就 能 够 很 好 地 表 
示 这 一 直观 的 准则 。 


T 


年 上 有 工作 


(b) 
图 5.3 不同 特 征 决定 的 不 同 决策 树 


5.2.2 ”信息 增益 


为 了 便于 说 明 , TEBE HS ARP EN 
在 信息 论 与 概率 统计 中 , Hi (entropy) 是 表示 随机 变量 不 确定 性 的 度量 。 设 X 是 
一 个 取 有 限 个 值 的 离散 随机 变量 , 其 概率 分 布 为 


P(X=7i)=p, i=1,2,. ,Nn 


则 随机 变量 X 的 粹 定义 为 
H(X) = 一 》 pilogp; (5.1) 

i=1 
在 式 (5.1) 中 , # pi = 0, 则 定义 0log0 = 0. 通常 , I (5.1) 中 的 对 数 以 2 为 底 或 以 e 


为 底 (自然 对 数 ), ROI PL BRE LORE Cit) 或 纳 特 (at), HEXA, Wi 
只 依赖 于 和 的 分 布 ,而 与 X 的 取 值 无 关 , 所 以 也 可 将 XX RE H(p), B 


H(p) = — pilogp: (5.2) 
i=1 


WGK, 随机 变量 的 不 确定 性 就 越 大 。 从 定义 可 验证 


0 < H(p) < logn (5.3) 
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当 随 机 变量 只 取 两 个 值 , 例如 1, 0 时 , BN X 的 分 布 为 


P(X=1)=p, P(X=0)=1-p, 0<p<1 


HIA 


H(p) = —plogz p — (1 — p) loga(1 — p) (5.4) 


这 时 , i H(p) 随 概率 p 变化 的 曲线 如 图 5.4 所 示 (单位 为 比特 )。 


0.5 1.0 
p 


图 5.4 ”分 布 为 伯 努 利 分 布 时 烂 与 概率 的 关系 
“p= 0 Rp = 1 if H(p) = 0, 随机 变量 完全 没有 不 确定 性 。 当 p = 0.5 
时 , H(p) = 1, HIERA, 随机 变量 不 确定 性 最 大 。 
设 有 随机 变量 (X,Y), 其 联合 概率 分 布 为 


P(X = 1;,Y = yj) = pij, i=1,2, ,mn j=1,2,,m 


AER H(Y |X) 表示 在 已 知 随机 变量 X 的 条 件 下 随机 变量 Y 的 不 确定 性 。 随 机 变量 
X 给 定 的 条 件 下 随机 变量 Y 的 条 件 (conditional entropy) H(Y|X), 定义 为 XX 给 
定 条件 下 Y 的 条 件 概率 分 布 的 烂 对 X 的 数学 期 望 


H(¥|X) = > p:H(Y|X = za (5.5) 
i=l 

这 里 , pi = P(X = zi) i=1,2,--- ne 
“IAA EGP ZS EE CRP ERA FEB, BT IG 
GAMERA HK AG Cempirical entropy) MARAE (empirical conditional 
entropy) 。 此 时 ,如果 有 0 概率 , + 0log0 = 0。 

信息 增益 (information gain) 表示 得 知 特征 X 的 信息 而 使 得 类 Y 的 信息 的 不 确 
定性 减少 的 程度 。 
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定义 5.2 (信息 增益 ) ”特征 A 对 训练 数据 集 万 的 信息 增益 g(D, A), 定义 为 集 
& D HBr H(D) 与 特征 4 给 定 条 件 下 D 的 经 验 条 件 灶 五 (DI4) ZZ, Pr 


g(D, A) = H(D) — H(D|A) (5.6) 


一 般 地 , Hi HY) SACP A (Y |X) 之 差 称 为 互信 息 (mutual information) . 
策 树 学 习 中 的 信息 增益 等 价 于 训练 数据 集中 类 与 特征 的 互信 息 。 
决策 树 学 习 应 用 信息 增益 准则 选择 特征 。 给 定 训练 数据 集 D 和 特征 A, BOSH 
H(D) 表示 对 数据 集 D 进行 分 类 的 不 确定 性 。 而 经 验 条 件 箭 (D|A) 表示 在 特征 A 
给 定 的 条 件 下 对 数据 集 D 进行 分 类 的 不 确定 性 。 那么 它们 的 差 , 即 信息 增益 ， 就 表示 
由 于 特征 A 而 使 得 对 数据 集 D 的 分 类 的 不 确定 性 减少 的 程度 。 显然 , 对 于 数据 集 D 
而 言 ， 信 息 增益 依赖 于 特征 ， 不 同 的 特征 往往 具有 不 同 的 信息 增益 。 信息 增 益 大 的 特 
征 具有 更 强 的 分 类 能 力 。 
根据 信息 增益 准则 的 特征 选择 方法 是 : 对 训练 数据 集 RTE D, 计算 其 每 个 特 
征 的 信息 增益 ， 并 比较 它们 的 大 小 , 选择 信息 增益 最 大 的 特征 。 
设 训练 数据 集 为 D, |D] 表示 其 样本 容量 ， 即 样本 个 数 。 设 有 天 个 类 Ch, 二 
K 
1,2,… Ky |Cy| 为 属于 类 Cy 的 样本 个 数 ，>》 Ck] = |D|。 设 特征 4 有 个 不 同 的 
k= 
取 值 {a1, a2,.… yan} 根据 特征 A 的 取 值 将 划分 为 n AEM Di, Da, , Dn» (Dil 
为 Pi 的 样本 个 数 ，》 Di] = |D] RTE Pi 中 属于 类 Cy 的 样本 的 集合 为 Dir W 
Du = Din cu， |Dix| 为 Dix 的 样本 个 数 。 于 是 信息 增益 的 算法 如 下 。 
算法 5.1 (信息 增益 的 算法 ) 


输入 : 训练 数据 集 D 和 特征 4; 
输出 : 特征 4 对 训练 数据 集 D 的 信息 增益 g(D, A). 
(1) 计算 数据 集 D WAHR H(D) 


K 
_ [Cx] [Cx| 
H(D) = 3 Te wy (5.7) 


(2) 计算 特征 A 对 数据 集 D MARAE H(D|A) 


2 ID; a (Dili Ds D; 
H(DIA) =Y PD) = -De 58) 
i=1 i=1 k=1 n t 
(3) 计算 信息 增益 
g(D, A) = H(D) — H(D|A) (5.9) 
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例 5.2 对 表 5.1 所 给 的 训练 数据 集 D, 根据 信息 增益 准则 选择 最 优 特征 。 
解 TAI H(D). 


H(D) 


9 9 6 6 
1 1 .971 
15 1082 {5 ~ Ip 982 75 = 9-97 


然后 计算 各 特征 对 数据 集 D 的 信息 增益 。 分 别 以 A, Ag, Ag, Ag 表示 年 龄 、 有 


工作 、 有 自己 的 房子 和 信贷 情况 4 个 特征 , 则 


a) 
(D, A1) = H(D) - | Ž H(D:) + Ž H(D2) + HDs) 
Weed 再 
5/2 2 3 


5 S 3 3 21g 2) 5 [fioe £ lioe, 1 
15 | 5 0525 5 825) 15\ 5 0"825 50825 


= 0.971 — 0.888 = 0.083 


这 里 Dı, Do, D3 分 别 是 D 中 A1 CER) 取 值 为 青年 、 中 年 和 老年 的 样本 子 集 。 类 


似 地 ， 

(2) 

(D, A2) = H(D) 一 SH(D )+ 了 rp ) 

GY, A2) = 15 1 15 2 

5 10 4 4 6 6 
0.971 E x04 15 ( To 82 Ip = To 182 a) = 0.324 
(3) 
6 9 3 3 6 6 
g(D, A3) = 0.971 $ x0+ 15 ( g 1082 9 g 1082 3) 
= 0.971 — 0.551 = 0.420 

(4) 


g(D, A4) = 0.971 — 0.608 = 0.363 


最 后 ， 比 较 各 特征 的 信息 增益 值 。 由 于 特征 43〈 有 自己 的 房子 ) 的 信息 增益 值 : 
K, 所 以 选择 特征 As 作为 最 优 特征 。 


bill 
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5.2.3 ”信息 增益 比 


以 信息 增益 作为 划分 训练 数据 集 的 特征 , 存在 偏向 于 选择 取 值 较 多 的 特征 的 问 
il. 使 用 信息 增益 比 (information gain ratio) 可 以 对 这 一 问题 进行 校正 。 这 是 特征 选 
择 的 另 一 准则 。 
定义 5.3 (信息 增益 比 ) ”特征 A 对 训练 数据 集 DD 的 信息 增益 比 gR(D,4) 定义 
为 其 信息 增益 g(D, A) 与 训练 数据 集 D 关于 特征 A 4104415 Ha(D) Zr, PP 


g(D, A) 


on(D, A) = Fy 


5.10) 
Jet, Ha(D)= -Y> Dilog, Di, n ttt AA ha. 


5.3 ”决策 树 的 生成 


本 节 将 介绍 决策 树 学 习 的 生成 算法 。 首 先 介绍 IDS 的 生成 算法 , 然后 再 介绍 C4.5 
中 的 生成 算法 。 这 些 都 是 决策 树 学 习 的 经 典 算法 。 


5.3.1 1D3 算法 


ID3 算法 的 核心 是 在 决策 树 各 个 结 点 上 应 用 信息 增益 准则 选择 特征 ,递归 地 构建 
决策 树 。 具 体 方法 是 : 从 根 结 点 (root node) 开始 , 对 结 点 计算 所 有 可 能 的 特征 的 信 
息 增 益 , 选择 信息 增益 最 大 的 特征 作为 结 点 的 特征 ， 由 该 特征 的 不 同 取 值 建立 子 结 点 ; 
再 对 子 结 点 递归 地 调用 以 上 方法 , 构建 决策 树 ; 直到 所 有 特征 的 信息 增益 均 很 小 或 没 
有 特征 可 以 选择 为 止 。 最 后 得 到 一 棵 决策 树 。ID3 相当 于 用 极 大 似 然 法 进行 概率 模型 

算法 5.2 (ID3 算法 ) 

输入 : 训练 数据 集 D, 特征 集 A BH £; 

输出 : 决策 树 T. 

a) 车 DD 中 所 有 实例 属于 同一 类 Cr WT 为 单 结 点 树 ， 并 将 类 Ci 作为 该 结 点 
的 类 标记 , 返回 T; 

(2) 若 4= C, WT AME A, 并 将 D 中 实例 数 最 大 的 类 Cx 作为 该 结 点 的 类 
标记 , 返回 工 ; 

(3) 否则 , 按 算 法 5.1 计算 4 中 各 特征 对 D 的 信息 增益 , 选择 信息 增益 最 大 的 特 
{E Ag: 


5.3 决策 树 的 生成 77 


(4) WR A, 的 信息 增益 小 于 阔 值 =， 则 置 为 单 结 点 树 ， 并 将 D 中 实例 数 最 大 
的 类 Cr 作为 该 结 点 的 类 标记 , 返回 了 ; 
(5) 否则, 对 Ag 的 每 一 可 能 值 ai K As = 将 D 分 割 为 若干 非 空子 集 Dio 将 


Di 中 实例 数 最 大 的 类 作为 标记 , 构建 子 结 点 , 由 结 点 及 其 子 结 点 构成 树 T 返回 工 ; 
(6) 对 第 个子 结 点 ,以 DD; 为 训练 集 , 以 pa 为 特征 集 , 递归 地 调用 步 (1)~ 
步 (5), 得 到 子 树 To EE T; n 


例 5.3 对 表 5.1 的 训练 数据 集 , 利用 ID3 算法 建立 决策 树 。 
fe AUF 5.2 的 结果 ,由 于 特征 43 (有 自己 的 房子 ) 的 信息 增益 值 最 大 ， 所 以 
选择 特征 As 作为 根 结 点 的 特征 。 它 将 训练 数据 集 D 划分 为 两 个 子 集 Di (Az WE 
为 “是 ”) 和 Da (Ag 取 值 为 “ 否 ”)。 由 于 Di 只 有 同一 类 的 样本 点 , 所 以 它 成 为 一 个 
叶 结 点 , 结 点 的 类 标记 为 “是 ”。 
对 Do 则 需 从 特征 Ay (EBD), Ao (有 工作 ) 和 Ay (信贷 情况 ) 中 选择 新 的 特征 。 
计算 各 个 特征 的 信息 增益 : 
g(D2, A1) = H(D2) — H(D2|A1) = 0.918 — 0.667 = 0.251 
g(D2, A2) = H(D2) — H(D2|A2) = 0.918 
g(D2, A4) = H(D2) — H(D2|44) = 0.474 


选择 信息 增益 最 大 的 特征 Ao (有 工作 ) 作为 结 点 的 特征 。 由 于 Ao 有 两 个 可 能 取 值 ， 
从 这 一 结 点 引出 两 个 子 结 点 : 一 个 对 应 “是 ”( 有 工作 ) 的 子 结 点 , 包含 3 个 样本 , 它们 
属于 同一 类 , 所 以 这 是 一 个 叶 结 点 , 类 标记 为 “是 ”; 另 一 个 是 对 应 “和 否 ”( 无 工作 ) 的 
THR, 包含 6 个 样本 , 它们 也 属于 同一 类 , 所 以 这 也 是 一 个 叶 结 点 , 类 标记 为 “ 否 ”。 

这 样 生成 一 棵 如 图 5.5 所 示 的 决策 树 。 该 决策 树 只 用 了 两 个 特征 (有 两 个 内 部 
结 点 )。 | 


有 自己 的 房子 


Ko 


图 5.5 ”决策 树 的 生成 
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ID3 算法 只 有 树 的 生成 , 所 以 该 算法 生成 的 树 容易 产生 过 拟 合 。 


5.3.2 C4.5 的 生成 算法 


C4.5 算法 与 ID3 算法 相似 ，C4.5 算法 对 ID3 算法 进行 了 改进 。C4.5 在 生成 的 过 
程 中 , 用 信息 增益 比 来 选择 特征 。 

算法 5.3 (C4.5 的 生成 算法 ) 

输入 : 训练 数据 集 D, 特征 集 A BIE e; 

输出 : 决策 树 了 。 

(1) 如 果 D 中 所 有 实例 属于 同一 类 Ch MWET ARAA, 并 将 Ci 作为 该 结 
点 的 类 , 返回 了 ; 

(2) 如 果 4 = 2, 则 置 了 为 单 结 点 树 , 并 将 D 中 实例 数 最 大 的 类 Ch 作为 该 结 点 
的 类 , BE T; 

(3) 否则 , 按 式 (5.10) 计算 4 中 各 特征 对 D 的 信息 增益 比 , 选择 信息 增益 比 最 大 
的 特征 Ay; 

(4) WER Ag 的 信息 增益 比 小 于 阔 值 e, WET 为 单 结 点 树 , 并 将 D 中 实例 数 最 
大 的 类 Cy 作为 该 结 点 的 类 , 返回 了 ; 

(5) 否则 , 对 A, 的 每 一 可 能 值 ui, W A, = ai 将 DD 分 割 为 子 集 若干 非 空 Di;, 将 
Di 中 实例 数 最 大 的 类 作为 标记 , 构建 子 结 点 ,由 结 点 及 其 子 结 点 构成 树 T, 返回 了; 

(6) 对 结 点 i, 以 Di 为 训练 集 ， 以 4 - {Ag} AFER, 递归 地 调用 步 (1) 一 
步 (5), 得 到 子 树 Ti RE T; o 国 


5.4 RRNATETAL 


决策 树 生 成 算法 递归 地 产生 决策 树 ， 直 到 不 能 继续 下 去 为 止 。 这 样 产生 的 树 往往 
对 训练 数据 的 分 类 很 准确 , 但 对 未 知 的 测试 数据 的 分 类 却 没有 那么 准确 , 即 出 现 过 拟 
合 现象 。 过 拟 合 的 原因 在 于 学 习 时 过 多 地 考虑 如 何 提高 对 训练 数据 的 正确 分 类 ， 从 而 
构建 出 过 于 复杂 的 决策 树 。 解 决 这 个 问题 的 办 法 是 考虑 决策 树 的 复杂 度 , 对 已 生成 的 
决策 树 进行 简化 。 
在 决策 树 学 习 中 将 已 生成 的 树 进行 简化 的 过 程 称 为 剪 枝 (pruning) 。 具 体 地, BY 
枝 从 已 生成 的 树 上 裁 掉 一 些 子 树 或 叶 结 点 , 并 将 其 根 结 点 或 父 结 点 作为 新 的 叶 结 点 ， 
从 而 简化 分 类 树 模 型 。 

本 节 介 绍 一 种 简单 的 决策 树 学 习 的 剪 枝 算 法 。 

决策 树 的 剪 校 往往 通过 极 小 化 决策 树 整体 的 损失 函数 (loss function) 或 代价 函 
数 (cost function) 来 实现 。 wT 的 叶 结 点 个 数 为 |T|, t ÆR T 的 叶 结 点 , 该 叶 结 
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点 有 Ni 个 样本 点 ,其 中 大 类 的 样本 点 有 Ne 个 ,天 = 1,2,---,K A(T) 为 叶 


EMA, a > 0 为 参数 , 则 决策 树 学 习 的 损失 函数 可 以 定义 为 


ITI 
Ca(T) = >》 N.H: (T) + ofT| 


t=1 


FPA 


Nx, N, 
H,(T) =- —* log —* 
k 


在 损失 函数 中 , 将 式 (5.11) 右 端的 第 1 项 记 作 


ITI ITI K 


= >》 NH(T) =- DD Nu log 4 
t=1 


t=1 k=1 


这 时 有 
Ca(T) = C(T) + aT 


结 点 


(5.11) 


(5.12) 


(5.13) 


(5.14) 


式 (5.14) 中 ，C(T) 表示 模型 对 训练 数据 的 预测 误差 ， 即 模型 与 训练 数据 的 拟 合 程 
度 , |T| 表示 模型 复杂 度 ， BR a > 0 控制 两 者 之 间 的 影响 。 较 大 的 a 促使 选择 较 简 


训练 数据 的 拟 合 程度 , 不 考虑 模型 的 复杂 度 。 


单 的 模型 ( 树 ), 较 小 的 a 促使 选择 较 复杂 的 模型 ( 树 )。a = 0 意味 着 只 考虑 模型 与 


BY, 就 是 当 a 确定 时 ,选择 损失 函数 最 小 的 模型 ， 即 损失 函数 最 小 的 子 树 。 当 
a 值 确定 时 , 子 树 越 大 , 往往 与 训练 数据 的 拟 合 越 好 ,但 是 模型 的 复杂 度 就 越 高 ; 相 
反 , 子 树 越 小 , 模型 的 复杂 度 就 越 低 , 但 是 往往 与 训练 数据 的 拟 合 不 好 。 损失 函数 正好 


表示 了 对 两 者 的 平衡 。 


可 以 看 出 , 决策 树 生成 只 考虑 了 通过 提高 信息 增益 或 信息 增益 比 ) 对 训练 数据 
进行 更 好 的 拟 合 。 而 决策 树 剪 枝 通过 优化 损失 函数 还 考虑 了 减 小 模型 复杂 度 。 决 策 树 


生成 学 习 局 部 的 模型 ， 而 决策 树 剪 枝 学 习 整体 的 模型 。 


式 (5.11) 或 式 (5.14) 定义 的 损失 函数 的 极 小 化 等 价 于 正则 化 的 极 大 似 然 估 计 。 
所 以 , 利用 损失 函数 最 小 原则 进行 剪 枝 就 是 用 正则 化 的 极 大 似 然 估计 进行 模型 选择 。 


图 5.6 是 决策 树 剪 枝 过 程 的 示意 图 。 下 面 介绍 剪 枝 算法 。 
算法 5.4(〈 树 的 剪 枝 算法 ) 

输入 : 生成 算法 产生 的 整个 树 了 , BBs 

输出 : 修剪 后 的 子 树 Tao 

D ThA AS Si A A HG o 

(2) 递归 地 从 树 的 叶 结 点 向 上 回 缩 。 
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如 果子 树 的 损失 函数 更 小 


oR 
Ges) 剪 枝 
| yes no | 
yes no 
| 得 到 子 树 
5 D) 
yes [no ] 


图 5.6 ”决策 树 的 剪 枝 


设 一 组 叶 结 点 回 缩 到 其 父 结 点 之 前 与 之 后 的 整体 树 分 别 为 TB 与 Ta， 其 对 应 的 
损失 函数 值 分 别 是 Ce(TB) 与 Ca(T4), 如 果 


Cu(TA) < CalTs) (5.15) 


则 进行 剪 枝 , 即将 父 结 点 变 为 新 的 叶 结 点 。 
(3) 返回 (2), 直至 不 能 继续 为 止 , 得 到 损失 函数 最 小 的 子 树 Ta 。 a 


注意 , 式 (5.15) 只 需 考虑 两 个 树 的 损失 函数 的 差 ， 其 计算 可 以 在 局 部 进行 。 所 
以 , 决策 树 的 剪 枝 算 法 可 以 由 一 种 动态 规划 的 算法 实现 。 类 似 的 动态 规划 算法 可 参见 
文献 [10]. 


5.5 CART 算 法 


分 类 与 回归 树 (classification and regression tree，CART) 模型 由 Breiman 等 人 
在 1984 年 提出 , 是 应 用 广泛 的 决策 树 学 习 方法 。CART 同样 由 特征 选择 、 树 的 生成 
及 前 枝 组 成 ， 既 可 以 用 于 分 类 也 可 以 用 于 回归 。 以 下 将 用 于 分 类 与 回归 的 树 统称 为 决 
策 树 。 

CART 是 在 给 定 输入 随机 变量 X 条 件 下 输出 随机 变量 Y 的 条 件 概率 分 布 的 学 习 
方法 。CART 假设 决策 树 是 二 叉 树 ,内 部 结 点 特征 的 取 值 为 “是 ”和 “ 否 ”， 左 分 支 是 
取 值 为 “是 ”的 分 支 , 右 分 支 是 取 值 为 “ 否 ” 的 分 支 。 这 样 的 决策 树 等 价 于 递归 地 二 分 
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每 个 特征 , 将 输入 空间 即 特征 空间 划分 为 有 限 个 单元 , 并 在 这 些 单元 上 确定 预测 的 概 
率 分 布 , 也 就 是 在 输入 给 定 的 条 件 下 输出 的 条 件 概率 分 布 。 

CART 算法 由 以 下 两 步 组 成 : 

CL) 决策 树 生成 : 基于 训练 数据 集 生成 决策 树 ,生成 的 决策 树 要 尽量 大 ; 

(2) 决策 树 剪 枝 : 用 验证 数据 集 对 已 生成 的 树 进行 剪 枝 并 选择 最 优 子 树 ， 这 时 用 
损失 函数 最 小 作为 剪 枝 的 标准 。 


5.5.1 CART 生成 


决策 树 的 生成 就 是 递归 地 构建 二 又 决 策 树 的 过 程 。 对 回归 树 用 平方 误差 最 小 化 准 
TW, 对 分 类 树 用 基尼 指数 (Gini index) 最 小 化 准则 , 进行 特征 选择 , 生成 二 叉 树 。 

1. 回归 树 的 生成 

假设 X 与 Y 分 别 为 输入 和 输出 变量 , 并 且 Y 是 连续 变量 , 给 定 训练 数据 集 


D = {(z1,Y1), (zy2) (TN, YN)} 


考虑 如 何 生成 回归 树 。 

一 棵 回归 树 对 应 着 输入 空间 〈 即 特征 空间 ) 的 一 个 划分 以 及 在 划分 的 单元 上 的 输 
出 值 。 假 设 已 将 输入 空间 划分 为 M 个 单元 Ri, Ro, Rm， 并且 在 每 个 单元 Rm 上 
有 一 个 固定 的 输出 值 cw， 于 是 回归 树 模型 可 表示 为 


M 
f(x) = 》 em (x € Rm) (5.16) 


m=1 


当 输 入 空间 的 划分 确定 时 ,可 以 用 平方 误差 》，(y; — (zi))2 来 表示 回归 树 对 
TiERm 

于 训练 数据 的 预测 误差 , 用 平方 误差 最 小 的 准则 求解 每 个 单元 上 的 最 优 输出 值 。 易 知 ， 

单元 Rm 上 的 cm 的 最 优 值 ev 是 Rm 上 的 所 有 输入 实例 rz; 对 应 的 输出 ys 的 均值 , 即 


Em = ave(yilzi E€ Rm) 5.17) 


问题 是 怎样 对 输入 空间 进行 划分 。 这 里 采用 启发 式 的 方法 , 选择 第 j 个 变量 r0) 
和 它 取 的 值 s, 作为 切 分 变量 (splitting variable) 和 切 分 点 (splitting point) ,并 定义 
两 个 区 域 : 


Ri(j,s)= {ale <s} 和 Ro(j,s) = {ax > s} 5.18) 
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然后 寻找 最 优 切 分 变量 7 和 最 优 切 分 点 s。 有 具体 地 , 求解 


n | min > (yi — 1)? + min X, (yi — c2)? (5.19) 


js | er f i 
ZiER1(j,s) Zi€ER2(j,s) 


对 固定 输入 变量 7 可 以 找到 最 优 切 分 点 s。 


ĉi, = ave(yilzi € Ri(j,s)) 和 é2 = ave(yilzi € R2(j,s)) (5.20) 


遍历 所 有 输入 变量 ,找到 最 优 的 切 分 变量 j 构成 一 个 对 (7, s)。 依 此 将 输入 空间 划分 
为 两 个 区 域 。 接 着, 对 每 个 区 域 重复 上 述 划 分 过 程 , 直到 满足 停止 条 件 为 止 。 这 样 就 
生成 一 棵 回归 树 。 这 样 的 回归 树 通 常 称 为 最 小 二 乘 回归 树 (least squares regression 
tree)， 现 将 算法 叙述 如 下 。 

算法 5.5 (最 小 二 乘 回归 树 生成 算法 ) 

输入 : 训练 数据 集 D; 

输出 : 回归 树 f(a). 

在 训练 数据 集 所 在 的 输入 空间 中 , 递归 地 将 每 个 区 域 划分 为 两 个 子 区 域 并 决定 每 
个 子 区 域 上 的 输出 值 , 构建 二 又 决策 树 : 

D 选择 最 优 切 分 变量 j 与 切 分 点 s 求解 


min |mn X (y-a)+min X (mi-o) (5.21) 
we ® zieRi(i,s) ® vieR2(j,s) 

遍历 变量 j, 对 固定 的 切 分 变量 j 扫描 切 分 点 s, 选择 使 式 (5.21) 达到 最 小 值 的 对 

(i, s)。 

(2) 用 选 定 的 对 (j, s) 划分 区 域 并 决定 相应 的 输出 值 : 


Ri(j,s) = {zlz0) < s}, R2(j,s)= {xx > s} 


em = F > Yi, TERn, m=1,2 
™ ziERm(j,s) 


(3) 继续 对 两 个 子 区域 调 用 步骤 (1), (2), 直至 满足 停止 条 件 。 
(4) 将 输入 空间 划分 为 M 个 区 域 Ri, Ro,… , Rm， 生成 决策 树 : 


M 
f(z) = 》 éml(z € Rm) | 


m=1 
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2. 分 类 树 的 生成 

分 类 树 用 基尼 指数 选择 最 优 特征 , 同时 决定 该 特征 的 最 优 二 值 切 分 点 。 

定义 5.4 (基尼 指数 ) ”分 类 问题 中 , 假设 有 KK 个 类 ， 样 本 点 属于 第 类 的 概率 
为 pp， 则 概率 分 布 的 基尼 指数 定义 为 


Gini(p) = Sm —pk)=1— > (5.22) 
对 于 二 类 分 类 问题 ， 若 样本 点 属于 第 1 个 类 的 概率 是 p， 则 概率 分 布 的 基尼 指数 为 
Gini(p) = 2p(1 — p) (5.23) 
对 于 给 定 的 样本 集合 D， 其 基尼 指数 为 
K 1Cyl)? 
Gini(D) =1- > (H) (5.24) 
k=1 


RR, Ck 是 D 中 属于 第 类 的 样本 子 集 ，K 是 类 的 个 数 。 
如 果 样 本 集合 DD 根据 特征 A 是 否 取 某 一 可 能 值 a 被 分 割 成 Di 和 Do 两 部 分 , 即 


D, = {(x,y) € D|A(z) =a}, D= D- D, 
则 在 特征 4 的 条 件 下 , 集合 D 的 基尼 指数 定义 为 


Gini(D, A) = 2 Pil inicp,) 十 IP2l Ginicp,) (5.25) 


1 
IDI |D| 
基尼 指数 Gini(D) 表示 集合 D 的 不 确定 性 , 基尼 指数 Gini(D, A) 表示 经 4 = a 分 割 
后 集合 D 的 不 确定 性 。 基尼 指数 值 越 大 , 样本 集合 的 不 确定 性 也 就 越 大 , X 
相似 。 
图 5.7 显示 二 类 分 类 问题 中 基尼 指数 Gini(p). W (单位 比特 ) 之 半 H(p)/2 和 分 
类 误差 率 的 关系 。 横 坐标 表示 概率 p, 纵 坐 标 表示 损失 。 可 以 看 出 基尼 指数 和 烂 之 半 


0.5 
0.4 $ 
0.3 上 
0.2 上 


0.1 p 


0.0 E . 
0.0 0.2 0.4 0.6 0.8 1.0 


图 5.7 SRR PIETER. HC EMA RRE BIN AA 
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的 曲线 很 接近 , 都 可 以 近似 地 代表 分 类 误差 率 。 

算法 5.6 (CART 生成 算法 ) 

输入 : 训练 数据 集 D, 停止 计算 的 条 件 ; 

输出 : CART 决策 树 。 

根据 训练 数据 集 ， 从 根 结 点 开始 , 递归 地 对 每 个 结 点 进行 以 下 操作 , 构建 二 又 决 
策 树 : 

(1) 设 结 点 的 训练 数据 集 为 D, 计算 现 有 特征 对 该 数据 集 的 基尼 指数 。 此 时 , 对 
每 一 个 特征 A, 对 其 可 能 取 的 每 个 值 a 根据 样本 点 对 A = a 的 测试 为 “是 ”或 “和 否 ” 
将 万 分割 成 D 和 Do 两 部 分 , 利用 式 (5.25) 计算 A = a 时 的 基尼 指数 。 

(2) 在 所 有 可 能 的 特征 4 以 及 它们 所 有 可 能 的 切 分 点 a 中 , 选择 基尼 指数 最 小 的 
特征 及 其 对 应 的 切 分 点 作为 最 优 特征 与 最 优 切 分 点 。 依 最 优 特 征 与 最 优 切 分 点 ， 从 现 
结 点 生成 两 个 子 结 点 , 将 训练 数据 集 依 特征 分 配 到 两 个 子 结 点 中 去 。 

(3) 对 两 个 子 结 点 递归 地 调用 (1), (2), 直至 满足 停止 条 件 。 

(4) 生成 CART 决策 树 。 E 

算法 停止 计算 的 条 件 是 结 点 中 的 样本 个 数 小 于 预定 阐 值 , 或 样本 集 的 基尼 指数 小 
于 预定 阐 值 (样本 基本 属于 同一 类 ), 或 者 没有 更 多 特征 。 

例 5.4 根据 表 5.1 所 给 训练 数据 集 , 应 用 CART 算法 生成 决策 树 。 

解 首先 计算 各 特征 的 基尼 指数 , 选择 最 优 特征 以 及 其 最 优 切 分 点 。 仍 采用 例 5.2 
的 记号 , 分 别 以 Ay, Ao, Ag, Aq 表示 年 龄 、 有 工作 、 有 自己 的 房子 和 信贷 情况 4 个 特 
TE, 并 以 1, 2, 3 表示 年 龄 的 值 为 青年 、 中 年 和 老年 , 以 1, 2 表示 有 工作 和 有 自己 的 
房子 的 值 为 是 和 否 , U1, 2, 3 表示 信贷 情况 的 值 为 非常 好 、 好 和 一 般 。 

求 特征 Ay 的 基尼 指数 : 


1 
Gini(D, Ay = 1) = 3 (2x 3 x (1-2)) E (2x x (1-5) = 048 


Gini(D, A, = 2) = 0.48 
Gini(D, A, = 3) = 0.44 


HF Gini(D, A; = 1) 和 Gini(D, A; = 3) 相等 , 且 最 小 , 所 以 4 =1 AIA, =3 
都 可 以 选 作 Ar 的 最 优 切 分 点 。 
求 特征 4。 和 4s 的 基尼 指数 : 


Gini(D, A2 = 1) = 0.32 
Gini(D, A3 = 1) = 0.27 


1 于 Az 和 4s 只 有 一 个 切 分 点 , 所 以 它们 就 是 最 优 切 分 点 。 
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求 特征 44 的 基尼 指数 : 


Gini(D, A4 = 1) = 0.36 
Gini(D, A4 = 2) = 0.47 
Gini(D, A4 = 3) = 0.32 


Gini(D, Ag = 3) 最 小 , 所 以 44 = 3 为 44 的 最 优 切 分 点 。 

在 Ai, Ao, Az, A4 几 个 特征 中 , Gini(D, As = 1) = 0.27 最 小 , 所 以 选择 特征 43 

为 最 优 特征 ，4s = 1 为 其 最 优 切 分 点 。 于 是 根 结 点 生成 两 个 子 结 点 , 一 个 是 叶 结 点 。 

对 另 一 个 结 点 继续 使 用 以 上 方法 在 Ai, Ao, Ag 中 选择 最 优 特征 及 其 最 优 切 分 点 , 结 

RÆ Ag = 1. 依 此 计算 得 知 , 所 得 结 点 都 是 叶 结 点 。 B 
对 于 本 问题 , 按照 CART 算法 所 生成 的 决策 树 与 按照 ID3 算法 所 生成 的 决策 树 

完全 一 致 。 


5.5.2 CART B94 


CART 前 枝 算法 从 “完全 生长 ”的 决策 树 的 底 端 前 去 一 些 子 树 ， 使 决策 树 变 小 〈 模 
型 变 简单 )， 从 而 能 够 对 未 知 数据 有 更 准确 的 预测 。CART 剪 枝 算法 由 两 步 组 成 : 首先 
从 生成 算法 产生 的 决策 树 To 底 端 开 始 不 断 剪 枝 , 直到 To 的 根 结 点 ， 形 成 一 个 子 树 序 
列 {To, Tr, Tah: 然后 通过 交叉 验证 法 在 独立 的 验证 数据 集 上 对 子 树 序列 进行 测 
试 ， 从 中 选择 最 优 子 树 。 


1. UAL, 形成 一 个 子 树 序列 
在 剪 枝 过程 中 ,计算 子 树 的 损失 函数 : 


C.(T) = C(T) + af (5.26) 


其 中 , T 为 任意 子 树 ，C(T) 为 对 训练 数据 的 预测 误差 (如 基尼 指数 ), |T| 为 子 树 的 叶 
结 点 个 数 , a > 0 为 参数 ，Ca(T) 为 参数 是 a 时 的 子 树 T 的 整体 损失 。 参数 a 权衡 训 
练 数 据 的 拟 合 程 度 与 模型 的 复杂 度 。 

对 固定 的 a, 一 定 存在 使 损失 函数 Ca(T) 最 小 的 子 树 , 将 其 表示 为 Tao Ta 在 损 
REŽ Ca(T) 最 小 的 意义 下 是 最 优 的 。 容易 验证 这 样 的 最 优 子 树 是 唯一 的 。 当 a 大 
的 时 候 , 最 优 子 树 Ta 偏 小 ; 当 a 小 的 时 候 , 最 优 子 树 Tu WMA 极端 情况 , 当 a = 0 
时 , 整体 树 是 最 优 的 。 当 a 一 co 时 , 根 结 点 组 成 的 单 结 点 树 是 最 优 的 。 

Breiman 等 人 证 明 : 可 以 用 递归 的 方法 对 树 进行 剪 校 。 将 a 从 小 增 大 , 0 = ao < 
OL 产生 一 系列 的 区 间 [ai 041), i1=0,1,--- ,n; 前 枝 得 到 的 子 树 


| 
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序列 对 应 着 区 间 a € [ai ai) i = 0,1 ,n 的 最 优 子 树 序列 {T,T1,--- Tr} F 
BPA FRE REI 


具体 地 , 从 整体 树 To 开始 剪 枝 。 对 To 的 任意 内 部 结 点 t 以 t 为 单 结 点 树 的 损失 
函数 是 


Ca(t) = C(t) +a (5.27) 
Ut 为 根 结 点 的 子 树 T, 的 损失 函数 是 


Ce(D) = CCD)+ali (5.28) 


4a=0 Ka 充分 小 时 ， 有 不 等 式 


Ca(Tt) < Ca(t) (5.29) 
“a 增 大 时 , 在 某 一 a 有 
Ca(Tt) = Ca(t) (5.30) 
C(t) - C(T) 


LE 


a 再 增 大 时 ， 不 等 式 (6.29) 反 向 。 只 要 a = SY, D 与 + 有 相同 的 
损失 函数 值 , 而 t 的 结 点 少 , 因此 + LET, 更 可 取 , 对 T 进行 剪 枝 。 
为 此 , 对 To 中 每 一 内 部 结 点 二 计算 
so- =) 
它 表示 剪 枝 后 整体 损失 函数 减少 的 程度 。 在 Ty 中 前 去 g(t) 最 小 的 下， 将 得 到 的 子 树 
作为 再， 同时 将 最 小 的 gb) BOY ar. Ti 为 区 间 [aa,as) 的 最 优 子 树 。 
如 此 剪 村 下 去 , 直至 得 到 根 结 点 。 在 这 一 过 程 中 , 不 断 地 增加 a 的 值 , 产生 新 的 
区 间 。 
2. 在 剪 枝 得 到 的 子 树 序列 蕊 ,五 ,… T, 中 通过 交叉 验证 选取 最 优 子 树 To 


具体 地 ,利用 独立 的 验证 数据 集 ， 测 试 子 树 序列 To, Ti, Tn 中 各 棵 子 树 的 平 
方 误差 或 基尼 指数 。 平 方 误差 或 基尼 指数 最 小 的 决策 树 被 认为 是 最 优 的 决策 树 。 在 子 
树 序列 中 , 每 棵 子 树 Ti, To, Tn 都 对 应 于 一 个 参数 al az,… ,an。 所 以 ,， 当 最 优 
TFH T 确定 时 , 对 应 的 ak 也 确定 了 , 即 得 到 最 优 决 策 树 Tu 。 

现在 写 出 CART 剪 枝 算法 。 


(5.31) 
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算法 5.7 (CART 剪 枝 算法 ) 

输入 : CART 算法 生成 的 决策 树 To: 
输出 : 最 优 决 策 树 Ta o 

(1) Hk=0, T= T. 


(2) 设 a = +0. 
(3) 自 下 而 上 地 对 各 内 部 结 点 t A COT) Tl 以 及 
_ C(t)—C(h) 
"0 =a 


a = min(a, g(t)) 


这 里 , T, 表示 以 为 根 结 点 的 子 树 , CT) 是 对 训练 数据 的 预测 误差 , T) ET, 的 叶 
结 点 个 数 。 

(4) 对 g(t) = a 的 内 部 结 点 土 进 行 剪 枝 , 并 对 叶 结 点 上 以 多 数 表决 法 决定 其 类 ， 
得 到 树 To 

(5) Rk=k+l,a,=a,T=T. 

(6) 如 果 Ti 不 是 由 根 结 点 及 两 个 叶 结 点 构成 的 树 ， 则 回 到 步骤 (2); 否则 令 
Tk = The 

(7) 采用 交叉 验证 法 在 子 树 序列 To, Ti, +> Tn 中 选取 最 优 子 树 Tao n 


本 章 概 要 


1. 分 类 决策 树 模型 是 表示 基于 特征 对 实例 进行 分 类 的 树 形 结构 。 决 策 树 可 以 转 
换 成 一 个 于 then 规则 的 集合 , 也 可 以 看 作 是 定义 在 特征 空间 划分 上 的 类 的 条 件 概率 
分 布 。 

2. 决策 树 学 习 则 在 构建 一 个 与 训练 数据 拟 合 很 好 ,并 且 复 杂 度 小 的 决策 树 。 因 为 
从 可 能 的 决策 树 中 直接 选取 最 优 决 策 树 是 NP 完全 问题 。 现实 中 采用 启发 式 方法 学 习 

决策 树 学 习 算法 包括 3 部 分 : 特征 选择 、 树 的 生成 和 树 的 剪 枝 。 常 用 的 算法 有 
ID3、C4.5 和 CART. 

3. 特征 选择 的 目的 在 于 选取 对 训练 数据 能 够 分 类 的 特征 。 特征 选择 的 关键 是 其 准 
We 常用 的 准则 如 下 : 


Ml 
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(1) 样本 集合 D 对 特征 A 的 信息 增益 (ID3) 
g(D, A) = H(D) — H(D|A) 


K 
S lees ICxl 
B= a 1°82 TD] 


其 中 , H(D) EARR D WR, H(D;) 是 数据 集 D: (RG, 五 (D|4) 是 数据 集 D 对 特 

征 4 WIA PEW. Di 是 D 中 特征 A 取 第 ;个 值 的 样本 子 集 ，Cx 是 D 中 属于 第 k 类 的 
样本 子 集 。 n 是 特征 A 取 值 的 个 数 , K 是 类 的 个 数 。 
(2) 样本 集合 对 特征 A 的 信息 增益 比 (C4.5) 
g(D, A) 
Ha(D) 


gr(D, A) = 


其 中 , g(D, A) 是 信息 增益 , Ha(D) 是 D 关于 特征 A MAI 
(3) 样本 集合 D 的 基尼 指数 (CART) 
K 2 
[Cx] 
Gini(D = (H DI ) 
特征 4 条 件 下 集合 D 的 基尼 指数 : 


Dil 


DE ini(D1) + [Pal Gini(Da) 


Gini(D, A) = DI 


4. 决策 树 的 生成 。 通常 使 用 信息 增益 最 大 、 信息 增益 比 最 大 或 基尼 指数 最 小 作为 
特征 选择 的 准则 。 决 策 树 的 生成 往往 通过 计算 信息 增益 或 其 他 指标 , 从 根 结 点 开始 ， 
递归 地 产生 决策 树 。 这 相当 于 用 信息 增益 或 其 他 准则 不 断 地 选取 局 部 最 优 的 特征 , 或 
将 训练 集 分 割 为 能 够 基本 正确 分 类 的 子 集 。 

5. 决策 树 的 剪 枝 。 由 于 生成 的 决策 树 存在 过 拟 合 问题 ， 需 要 对 它 进 行 剪 枝 ， 以 简 
化 学 到 的 决策 树 。 决 策 树 的 剪 枝 , 往往 从 已 生成 的 树 上 剪 掉 一 些 叶 结 点 或 叶 结 点 以 上 
的 子 树 , 并 将 其 父 结 点 或 根 结 点 作为 新 的 叶 结 点 ,从 而 简化 生成 的 决策 树 。 


介绍 决策 树 学 习 方 法 的 文献 很 多 ， 关于 ID3 可 见 文献 [1]，C4.5 可 见 文献 
[2], CART 可 见 文献 3, 和。 决策 树 学 习 一 般 性 介绍 可 见 文献 [5~7]。 与 决策 树 类 
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似 的 分 类 方法 还 有 决策 列表 (decision list)。 决 策 列 表 与 决策 树 可 以 相互 转换 回 ， 决 
策 列表 的 学 习 方 法 可 参见 文献 [9] 。 


5J A 


5.1 根据 表 5.1 所 给 的 训练 数据 集 , 利用 信息 增益 比 (C4.5 算法 ) 生成 决策 树 。 
5.2 已 知 如 表 5.2 所 示 的 训练 数据 , 试用 平方 误差 损失 准则 生成 一 个 二 又 回归 树 。 


表 5.2 ”训练 数据 表 


Ti 1 2 3 4 5 6 7 8 9 10 


Yi 4.50 4.75 4.91 5.34 5.80 7.05 7.90 8.23 8.70 9.00 


5.3 证 明 CART 剪 枝 算法 中 , 当 a 确定 时 , 存在 唯一 的 最 小 子 树 Ta 使 损失 函 


数 Ca(T) 最 小 。 


5.4 证 明 CART 剪 枝 算法 中 求 出 的 子 树 序列 {7b, 五 ，…… ,Th} 分 别 是 区 间 


a € [ai aii) 的 最 优 子 树 Tas XE i = 0,1 ,mn 0=ao<al<…<an< 十 oo。 
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轴 辑 斯 席 回 归 logistic regression) 是 统计 学 习 中 的 经 典 分 类 方法 。 HAI EE 
率 模型 学 习 的 一 个 准则 , 将 其 推广 到 分 类 问题 得 到 最 大 入 模 型 (maximum entropy 
model)。 风 辑 斯 谤 回归 模型 与 最 大 烂 模型 都 属于 对 数 线性 模型 。 本 章 首先 介绍 多 辑 
谤 回归 模型 , 然后 介绍 最 大 烂 模型 ,最 后 讲述 逻辑 斯 谤 回归 与 最 大 烂 模型 的 学 习 算法 ， 
包括 改进 的 迭代 尺度 算法 和 拟 牛 顿 法 。 


6.1 逻辑 斯 谤 回归 模型 


6.1.1 逻辑 斯 育 分 布 


首先 介绍 逻辑 斯 谤 分 布 (logistic distribution) o 
定义 6.1 (逻辑 斯 谤 分 布 ) H X 是 连续 随机 变量 ，X 服从 逻辑 斯 席 分 布 是 指 尺 
具有 下 列 分 布 函数 和 密度 函数 : 


1 


F(z) = P(X < 2) = Tear 


(6.1) 


e7 (@-B)/7 
(1 + e~(-#)/7)2 


f(z) = F'(x) = 3 (6.2) 


AGP, pp 为 位 置 参 数 ， > 0 为 形状 参数 . 

逻辑 斯 诺 分 布 的 密度 函数 f(z) 和 分 布 函数 F(z) 的 图 形 如 图 6.1 所 示 。 分 布 函数 
届 于 逻辑 斯 谤 函数 ， 其 图 形 是 一 条 S 形 曲线 (sigmoid curve) 。 该 曙 线 以 点 (n 5) 为 
中 心 对 称 ， 即 满足 


1 1 
F-at+p)— 5 =—-Fletu) ts 


曲线 在 中 心 附近 增长 速度 较 快 , 在 两 端 增长 速度 较 慢 。 形状 参数 7 的 值 越 小 ,曲线 在 
中 心 附近 增长 得 越 快 。 
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f@) F(x) 


x x 


图 6.1 “逻辑 斯 详 分 布 的 密度 函数 与 分 布 函数 


6.1.2 ”二 项 逻辑 斯 详 回 归 模 型 

二 项 逻辑 斯 详 回 归 模型 (binomial logistic regression model) 是 一 种 分 类 模型 ， 由 
条 件 概率 分 布 P(Y|X) AN, 形式 为 参数 化 的 逻辑 斯 详 分 布 。 这 里 ， 随 机 变量 X 取 值 
为 实数 ， 随 机 变量 Y 取 值 为 1 或 0。 我 们 通过 监督 学 习 的 方法 来 估计 模型 参数 。 

定义 6.2 (逻辑 斯 谤 回归 模型 ) 二 项 逻辑 斯 谤 回归 模型 是 如 下 的 条 件 概率 分 布 : 


exp(w + z +b) 


PUY te 1+exp(w + x +b) 


(6.3) 


1 
T+exp(w- a+) 
这 里 ，z E Rn 是 输入 , Y € {0,1} 是 输出 , we Rm 和 bE R 是 参数 ,ww 称 为 权 值 向 
E, b RARE, wer Aw For HAR. 

对 于 给 定 的 输入 实例 z， 按 照 式 (6.3) MR (6.4) TARE PY = Ix) 和 
P(Y = 0|lz)。 轴 和 辑 斯 诺 回 归 比 较 两 个 条 件 概率 值 的 大 小 , 将 实例 > 分 到 概率 值 较 大 的 
那 一 类 。 

有 时 为 了 方便 ， 将 权 值 向 量 和 输入 向 量 加 以 扩充 ， 仍 记 作 w，z, 即 w = (Ww, 
we), wl, b)T, z = (zzzo0,1)T。 这 时 ,逻辑 斯 详 回 归 模 型 如 下 : 


P(Y =0|z) = (6.4) 


exp(w « x) 
P(Y = 1|\z) T tent +a) (6.5) 
PY = 中 = 一 plu = (6.6) 
现在 考查 逻辑 斯 谤 回归 模型 的 特点 。 一 个 事件 的 几率 (odds) 是 指 该 事件 发 生 的 


概率 与 该 事件 不 发 生 的 概率 的 比值 。 如 果 事 件 发 生 的 概率 是 p, 那么 该 事件 的 几率 是 
Ty 该 事件 的 对 数 几率 Cog odds) 3È logit 函数 是 


logit(p) = log I P z 
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对 轴 辑 斯 详 回 归 而 言 , 由 式 (6.5) 与 式 (6.6) 得 


P(Y=1x) _ 
logT 一 PIF 二 To t 

这 就 是 说 , 在 逻辑 斯 谤 回归 模型 中 , 输出 Y = 1 的 对 数 几率 是 输入 z 的 线性 函数 。 或 
者 说 , 输出 Y = 1 的 对 数 几 率 是 由 输入 z 的 线性 函数 表示 的 模型 ， 即 逻辑 斯 谤 回归 
模型 。 

换 一 个 角度 看 , 考虑 对 输入 z 进行 分 类 的 线性 函数 wer, 其 值 域 为 实数 域 . 注 
意 , 这 里 ze R?+l, we RH., 通过 逻辑 斯 谤 回归 模型 定义 式 (6.5) 可 以 将 线性 函数 
w es 转换 为 概率 : 


exp(w « x) 
1+ exp(w « x) 
这 时 , 线性 函数 的 值 越 接 近 正 无 穷 , 概率 值 就 越 接近 1; 线性 函数 的 值 越 接近 负 无 穷 ， 
概率 值 就 越 接近 0 (如 图 6.1 所 示 )。 这 样 的 模型 就 是 逻辑 斯 详 回 归 模 型 。 


P(Y =1|z) = 


6.13 ”模型 参数 估计 


逻辑 斯 谤 回归 模型 学 习 时 ,对 于 给 定 的 训练 数据 集 T = {(21, 41), (w2,42),°°° 5 
(ZN,yN)}， IEP, zi € R”, ys € {0,1}, 可 以 应 用 极 大 似 然 估计 法 估计 模型 参数 ， 从 
而 得 到 逻辑 斯 详 回 归 模型 。 


设 : 
P(Y =1\z)=7(z), P(Y =0|r) = 1- r(x) 
似 然 函数 为 
I Ire) -r(Gza 
i=1 
对 数 似 然 函数 为 


Ms 


L(w) = 


[yi log (zi) + (1 — ys) log(1 — z (x:))] 


Me IM 


ll 
> 


9 [row TE te.) 


[Wi(w + a) — log(1 + exp(w + zi)] 


Xf L(w) 求 极 大 值 , 得 到 w 的 估计 值 。 
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这 样 ,问题 就 变 成 了 以 对 数 似 然 函数 为 目标 函数 的 最 优化 问题 。 逻辑 斯 谤 回归 学 
习 中 通常 采用 的 方法 是 梯度 下 降 法 及 拟 牛 顿 法 。 
假设 w 的 极 大 似 然 估 计 值 是 十 , 那么 学 到 的 逻辑 斯 谤 回归 模型 为 


Py =p) ea 
Bae 1+ ant ex) 


6.1.4 多 项 逻辑 斯 详 回 归 


上 面 介绍 的 轴 辑 斯 详 回 归 模 型 是 二 项 分 类 模型 , 用 于 二 类 分 类 。 可 以 将 其 推广 为 
多 项 罗 辑 斯 详 回 归 模 型 (multi-nominal logistic regression model)， 用 于 多 类 分 类 。 假 
设 离散 型 随机 变量 Y 的 取 值 集合 是 {1,2,…… Kp 那么 多 项 逻辑 斯 谤 回归 模型 是 


P(Y = klz) = apina) _ REY Qo RS (6.7) 
1+ > exp(wk * z) 
k=1 
1 
P(Y = Klz) = 一 (6.8) 
1+ 5 exp(wk * x) 
k=1 


这 里 , re R” +! w, ER. 
SDE rie AEE AE Be RT te 


ua 
a 


归 。 


6.2 RAIRE 


EKRI (maximum entropy model) 由 最 大 炉 原 理 推 导 实 现 。 这 里 首先 叙述 
一 般 的 最 大 箭 原理 ， 然 后 讲解 最 大 科 模 型 的 推导 , 最 后 给 出 最 大 焙 模型 学 习 的 形式 。 


6.2.1 RARE 


SK HR ES NE. RA A, 学 习 概率 模型 时 , 在 
所 有 可 能 的 概率 模型 (分布 ) 中 , 焙 最 大 的 模型 是 最 好 的 模型 。 通 常用 约束 条 件 来 确 
定 概率 模型 的 集合 , 所 以 , BWARRE WARIS Ay CEN AL AR A FA H 
FICK A o 
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假设 离散 随机 变量 X 的 概率 分 布 是 P(X), WER R 5.2.2 节 ) 是 


H(P) = 一 》 P(z)log P(z) (6.9) 


焙 满 足下 列 不 等 式 : 
0 < H(P) < log |X| 

式 中 , |X| EX 的 取 值 个 数 , SHNA X 的 分 布 是 均匀 分 布 时 右边 的 等 号 成 立 。 这 就 
是 说 , 4X IMAI, HK. 
直观 地 , 最 大 炉 原 理 认为 要 选择 的 概率 模型 首先 必须 满足 已 有 的 事实 , 即 约束 条 
件 。 在 没有 更 多 信息 的 情况 下 ,那些 不 确定 的 部 分 都 是 “等 可 能 的 ”。 最 大 炉 原理 首 
过 炉 的 最 大 化 来 表示 等 可 能 性 。“ 等 可 能 ”不 容易 操作 , 而 粹 则 是 一 个 可 优化 的 数值 
指标 。 

首先 , 通过 一 个 简单 的 例子 来 介绍 一 下 最 大 粹 原理 中 。 

例 6.1 假设 随机 变量 X 有 5 个 取 值 {4, B,C, D,E}, 要 估计 取 各 个 值 的 概率 


解 ” 这 些 概 率 值 满足 以 下 约束 条 件 : 


P(A) + P(B) + P(C)+ P(D)+ P(E) =1 


满足 这 个 约束 条 件 的 概率 分 布 有 无 穷 多 个 。 如 果 没 有 任何 其 他 信息 ， 仍 要 对 概率 分 布 
进行 估计 , 一 个 办 法 就 是 认为 这 个 分 布 中 取 各 个 值 的 概率 是 相等 的 


P(A) = P(B) = P(C) = P(D) = P(E) 


1 

5 

等 概率 表示 了 对 事实 的 无 知 。 因 为 没有 更 多 的 信息 , 这 种 判断 是 合理 的 。 
有 时 ， 能 从 一 些 先 验 知识 中 得 到 一 些 对 概率 值 的 约束 条 件 ， 例 如 : 


P(A) + P(B) = = 


P(A) + P(B) + P(C) + P(D)+ P(E) =1 


满足 这 两 个 约束 条 件 的 概率 分 布 仍然 有 无 穷 多 个 。 在 缺少 其 他 信息 的 情况 下 ,可 以 认 
为 4 与 B 是 等 概率 的 , C, DS E 是 等 概率 的 , 于 是 ， 


© 此 例 来 自 参考 文献 [1]。 
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如 果 还 有 第 3 个 约束 条 件 : 
P(A) + P(C) = 5 
P(A) + P(B) = = 
P(A) + P(B) + P(C) + P(D) + P(E) =1 
可 以 继续 按照 满足 约束 条 件 下 求 等 概率 的 方法 估计 概率 分 布 。 这 里 不 再 继续 讨论 。 以 
上 概率 模型 学 习 的 方法 正 是 遵循 了 最 大 烂 原理 。 a 
图 6.2 提供 了 用 最 大 病原 理 进行 概率 模型 选择 的 几何 解释 。 概 率 模型 集合 万 可 由 
欧 氏 空间 中 的 单纯 形 (simplex) 巴 表 示 ,， 如 左 图 的 三 角形 (2- 单 纯 形 )。 一 个 点 代表 一 
个 模型 ， 整个 单纯 形 代表 模型 集合 。 右 图 上 的 一 条 直线 对 应 于 一 个 约束 条 件 ， 直线 的 
交集 对 应 于 满足 所 有 约束 条 件 的 模型 集合 。 一 般 地 ,这样 的 模型 仍 有 无 穷 多 个 。 学习 
的 目的 是 在 可 能 的 模型 集合 中 选择 最 优 模型 ,而 最 大 炉 原理 则 给 出 最 优 模型 选择 的 一 
个 准则 。 


约束 1 约束 2 


概率 模型 空间 满足 约束 条 件 的 模型 集合 
图 6.2 ”概率 模型 集合 


6.2.2 最 大 粹 模型 的 定义 


最 大 粹 原理 是 统计 学 习 的 一 般 原理 , AEE BAD RE ae Ko 
假设 分 类 模型 是 一 个 条 件 概率 分 布 P(Y|X), X EX CR" 表示 输入 ,，Y € 》 表 


示 输 出 , X ALY 分 别 是 输入 和 输出 的 集合 。 这 个 模型 表示 的 是 对 于 给 定 的 输入 XX, 以 
条 件 概率 P(Y|X) H Y. 


© 单纯 形 是 在 n 维 欧 氏 空间 中 的 n+1 个 仿 射 无 关 的 点 的 集合 的 凸 包 。 
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给 定 一 个 训练 数据 集 


T = {(21, 91), (£2; Y2) , (TN, YN)} 


H En EK E E AKR. 
首先 考虑 模型 应 该 满足 的 条 件 。 给 定 训练 数据 集 ， 可 以 确定 联合 分 布 P(X, Y) 的 
经 验 分 布 和 边缘 分 布 P(X) 的 经 验 分 布 , 分别 以 P(X, Y) 和 P(X) 表示 。 这 里 ， 


U(X =2,Y =y) 
N 


P(X =2,Y =y) 
P(X =2)= vx) 

其 中 , v(X =2,Y = y) 表示 训练 数据 中 样本 (x,y) 出 现 的 频数 , v(X = r) 表示 训练 
数据 中 输入 z 出 现 的 频数 ,，N 表示 训练 样本 容量 

特征 函数 (feature function) f(x,y) 描述 输入 z 和 输出 y 之 间 的 某 一 个 事实 。 
其 定义 是 


1，z 与 y 满 足 某 一 事实 
f(x,y) = 
0, 否则 

它 是 一 个 二 值 函数 中 , 当 xz Aly 满足 这 个 事实 时 取 值 为 1, 否则 取 值 为 0。 
特征 函数 f(z,y) 关于 经 验 分 布 (X,Y) 的 期 望 值 , 用 Epl) 表示 : 


Ep(f) = Y P(e,y)f (ey) 


特征 函数 f(z,y) 关于 模型 P(Y|X) SARA P(X) 的 期 望 值 , 用 Ep(f) 表示 : 


Ep(f) = >> P(x)P(ylz)f(z,y) 


TY 
如 果 模 型 能 够 获取 训练 数据 中 的 信息 , 那么 就 可 以 假设 这 两 个 期 望 值 相等 ， 即 


Ep(f) = Ep(f) (6.10) 


PC x)P(y|x) f(a, y) = LP la, y)F(a,y) (6.11) 


© 一 般 地 , 特征 函数 可 以 是 任意 实 值 函数 。 
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我 们 将 式 (6.10) 或 式 (6.11) 作为 模型 学 习 的 约束 条 件 。 假 如 有 个 特征 函数 
三 (TY), i=1,2, ns WARA n 个 约束 条 件 。 
定义 6.3 RARE) BARAMA RERA RAA 


C={PePlBp( 月 = 本 (月 t=1,2,---,n} (6.12) 
定义 在 条 件 概率 分 布 P(Y|X) Lay HEH» 


ee PE P(y|x) log P(ylz) (6.13) 


则 模型 集合 CoP AH H(P) BAMBARA RAKE. 式 中 的 对 数 为 自然 对 数 。 


6.2.3 ”最 大 焙 模 型 的 学 习 
最 大 粹 模型 的 学 习 过 程 就 是 求解 最 大 炉 模 型 的 过 程 。 最 大 和 模 型 的 学 习 可 以 形式 
nd 


给 定 的 训练 数据 集 T = {(21, 91), (7Z2,y2),… , (ZN,YN)} 以 及 特征 函数 
ion t=1,2,- ee eres tts 


max H(P) = -E P(x)P(y|x) log P(y|z) 


st. Ep(fi) = Bath), i=1,2, ,Nn 


> Ptylz)=1 


按照 最 优化 问题 的 习惯 , 将 求 最 大 值 问题 改写 为 等 价 的 求 最 小 值 问题 : 


min =R= 2 Pele) be PG (6.14) 

s.t. Ep(fi)— Ep(fi)=0, i=1,2,.…,n (6.15) 
> Pula) =1 (6.16) 
y 


求解 约束 最 优化 问题 (6.14) ~(6.16), ATH AIA, BAER AIA SR. F 
面 给 出 具体 推导 。 

这 里 , 将 约束 最 优化 的 原始 问题 转换 为 无 约束 最 优化 的 对 偶 问题 Q。 通过 求解 对 

O 参阅 附录 C。 
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偶 问 题 求解 原始 问题 。 


首先 , 引进 拉 格 朗 日 乘 子 wo, wi, w2,- , wn， 定义 拉 格 朗 日 函数 L(P, w): 


L(P,w) = —H(P) + wo (: - Era) + Dwi(Bp(fi) — Ep(fi)) 


y i=l 


= 2 P(x)P(ylx) log P(y|x)+wo (: =), Pal) + 


y 


Du (xa x,y) fi(z,y) pi (ylz) fiz, v) (6.17) 


最 优化 的 原始 问题 是 
min max L(P, w) (6.18) 
PEC w 
对 偶 问 题 是 
max min L(P, w) (6.19) 
w PEC 


1 于 拉 格 朗 日 函数 LP, w) 是 书 的 凸 函数 ， 原 始 问题 (6.18) 的 解 与 对 偶 问 题 
(6.19) 的 解 是 等 价 的 。 这 样 ， 可 以 通过 求解 对 偶 问 题 (6.19) 来 求解 原始 问题 (6.18)。 

首先 , 求解 对 偶 问题 (6.19) 内 部 的 极 小 化 问题 min L(P,w). min L(P, w) 是 的 
函数 , 将 其 记 作 


Y(w) = min L(P, w) = L(Py,w) (6.20) 


P(w) 称 为 对 偶 函 数 。 同 时 ,将 其 解 记 作 


Py = arg min L(P,w) = Py(yle) (6.21) 


具体 地 , SK L(P, w) 对 P(ylz) 的 偏 导数 
dL(P,w) 


IPOE ~ pi z) (log P(ylz) + 1) = 2m po (ro > wifi(a, v) 


TY i=l 


TY i=1 


= 》 P(z) (rerum) 十 1 一 wo 一 tk, v) 


令 偏 导 数 等 于 0, 在 P(x) > 0 的 情况 下 , 解 得 
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exp (= wifi(a, ») 
1) i=1 


exp(1 — wo) 


P(y|a) = exp (> wifi(z,y) + wo 


i=l 


由 于 SS Piye) =1, 得 
2 


Pw(y|z) = Z a exp (> wifil T, v) (6.22) 
其 中 ， 
Zu(z) = X exp (> fie) 6.23) 


Zw (x) 称 为 规范 化 因子 ; fi(z,y) 是 特征 函数 ; wi 是 特征 的 权 值 。 由 式 (6.22). I (6.23) 
表示 的 模型 Po = P(y|zx) BETA. 这 里 , w RIF HS Be AE 


之 后 , 求解 对 偶 问 题 外 部 的 极 大 化 问题 


max V(w) 6.24) 


将 其 解 记 为 w*， 即 


w* = argmaxV(w) 6.25) 


这 就 是 说 ,可 以 应 用 最 优化 算法 求 对 偶 函 数 (w) 的 极 大 化 , 得 到 wt, 用 来 表示 
P* € Co 这里, P* = Pye = Pu (yl) 是 学 习 到 的 最 优 模型 (最 大 炳 模型 )。 也 就 是 说 ， 
最 大 烂 模型 的 学 习 归 结 为 对 偶 函 数 严 (w) 的 极 大 化 。 

例 6.2 学 习 例 6.1 PINE ABE. 

解 ”为 了 方便 , DAIL y, y2, 93,44, Ys 表示 A, B, C, DME, FRI KM RAL 
学 习 的 最 优化 问题 是 


min j= 2P (yi) log P(y:) 
s.t. Twi + Fieis P(y1) + P(y2) = 
5 


Dn yi) = oP) =1 


3 
10 


5 


FE 拉 格 朗 日 乘 子 wo, wir 定义 拉 格 朗 日 函数 


= 
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5 5 
L(P,w) = 2 Pui) log PC) +w (Pw) + P(y2) 一 a) + wo (> P(yi) 一 1) 


i=l 
根据 拉 格 朗 日 对 偶 性 ， 可 以 通过 求解 对 偶 最 优化 问题 得 到 原始 最 优化 问题 的 解 ， 


max min L(P,w) 


首先 求解 L(P, w) 关于 P 的 极 小 化 问题 。 为 此 , 固定 wo, wir 求 偏 导数 : 


ee =1+ log P(y1) + wi + wo 
oe = 1+ log P(y2) + wi + wo 
OnE = 1 + log P(y3) + wo 
3 = 1 + log P(y4) + wo 
E = 1 + log P(ys) + wo 


令 各 偏 导 数 等 于 0, 解 得 


min L(P, w) = L(Py, w) = —2e—¥1— 0-1 — ge wo! — Žun — wo 


再 求解 L(Pu, w) 关于 w 的 极 大 化 问题 : 
max L( Pw, w) = —2e "wl — 36 wl1— Žan — wo 
SAR L(Pu, w) 对 wo, wi 的 偏 导 数 并 令 其 为 0, 得 到 


3 


eu —wo-1 — 


20 


eo vo-l = 


30 
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于 是 得 到 所 要 求 的 概率 分 布 为 
P(y1) = P(y2) = 20 


P(ys) = P(ya) = P(ys) = = 


6.2.4” 极 大 似 然 估计 


从 以 上 最 大 炳 模型 学 习 中 可 以 看 出 , 最 大 烂 模型 是 由 式 (6.22)、 式 (6.23) 表示 的 
条 件 概率 分 布 。 下 面 证 明 对 偶 函 数 的 极 大 化 等 价 于 最 大 炳 模型 的 极 大 似 然 估计 。 
已 知 训练 数据 的 经 验 概率 分 布 P(X, Y), 条 件 概率 分 布 P(Y|X) 的 对 数 似 然 函数 
表示 为 
Lp(Pw) = log TJ Plylx)?@™ = 》 P(z,y)1logP(ylz) 
TY TY 


当 条 件 概 率 分 布 P(ylz) ERKA (6.22) 和 (6.23) 时 , 对 数 似 然 函数 Lp(P,) 为 
Lp(Pu) = 》 P(z,y)logP(ylz) 
TY À 
=X Plz, y) X wifi(a,y) -X P(e, y) log Zu(7) 
TY i=1 


TY 


= > P(2,y) Y wifi y) — 2 ) log Zu 人 (6.26) 
TY i=1 


再 看 对 偶 函 数 亚 (w)。 由 式 (6.17) 及 式 (6.20) 可 得 


V(w)= Le (ylz) log Py (ylz) + 
yu (z7 z, y) fi(2,y) zp Po w (ylz) fila, ») 
=a TY emi z, OPO s (ylz) (ver. (ylz) -Luhe 本 
=> P(z,y) Sasi x,y) “2s ~w(y|x) logZu (7) 


=) Ply) 2 wifi, y) — X P(a) log Zw (x) (6.27) 


最 后 一 步 用 到 》) P(y|z) = 1. 
y 
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比较 式 (6.26) 和 式 (6.27), 可 得 
Y(w) = La(P,) 


EAI ERZ W(w) 等 价 于 对 数 似 然 函数 工 E(Pu)， 于 是 证 明了 最 大 粒 模 型 学 习 中 的 
对 偶 函 数 极 大 化 等 价 于 最 大 焙 模 型 的 极 大 似 然 估计 这 一 事实 。 

这 样 , 最 大 炳 模型 的 学 习 问 题 就 转换 为 具体 求解 对 数 似 然 函数 极 大 化 或 对 偶 函 数 
极 大 化 的 问题 。 

可 以 将 最 大 烂 模型 写成 更 一 般 的 形式 。 


Pulyle) =F w exp (È when) (6.28) 
w i=1 
其 中 ， ， 
Zale) = Sexe (Df (6.29) 
Yy i=1 
这 里 , ce R” 为 输入 , y € {1,2,… ,KK} 为 输出 , we R" 为 权 值 向 量 , f(z,y), i= 


it A 
1,2,… n 为 任意 实 值 特征 函数 。 

最 大 烂 模型 与 逻辑 斯 谤 回归 模型 有 类 似 的 形式 , 它们 又 称 为 对 数 线性 模型 (log 
linear model) 。 模 型 学 习 就 是 在 给 定 的 训练 数据 条 件 下 对 模型 进行 极 大 似 然 估 计 或 正 
则 化 的 极 大 似 然 估 计 。 
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逻辑 斯 谤 回归 模型 、 最 大 炉 模 型 学 习 归结 为 以 似 然 函 数 为 目标 函数 的 最 优化 问 
题 , 通常 通过 友 代 算法 求解 。 从 最 优化 的 观点 看 , 这 时 的 目标 函数 具有 很 好 的 性 质 。 E 
是 光滑 的 凸 函数 ,因此 多 种 最 优化 的 方法 都 适用 ,保证 能 找到 全 局 最 优 解 。 常 用 的 方 
法 有 改进 的 迭代 尺度 法 、 梯 度 下 降 法 、 牛 顿 法 或 拟 牛 顿 法。 牛顿 法 或 拟 牛 顿 法 一 般 收 

下 面 介绍 基于 改进 的 迭代 尺度 法 与 拟 牛 顿 法 的 最 大 烂 模 型 学 习 算法 。 梯 度 下 降 法 
参阅 附录 A。 


6.3.1 改进 的 迭代 尺度 法 


改进 的 迭代 尺度 法 Gmproved iterative scaling, IIS) Æ- F RARR A Se 
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Palle) = z a (> wifilz, v) 
其 中 
paaa) 
s i 
对 数 似 然 函数 为 


L(w) = DPen fle - J )log Zou 人 


目标 是 通过 极 大 似 然 估计 学 习 模 型 参数 ， 即 求 对 数 似 然 函数 的 极 大 值 性。 

TIS 的 想法 是 : ERRARE SA EE w = (w, w, Wn) Ts 我 们 希 
望 找到 一 个 新 的 参数 向 量 w+ô = (wi + 61, W2 + 62, soe Wa t i 使 得 模型 的 对 数 
似 然 函数 值 增 大 。 如 果 能 有 这 样 一 种 参数 向 量 更 新 的 方法 7 :w w+ 6, 那么 就 可 以 
重复 使 用 这 一 方法 , 直至 找到 对 数 似 然 函数 的 最 大 值 。 

对 于 给 定 的 经 验 分 布 户 (z,y), 模型 参数 从 w 到 w 十 5, 对 数 似 然 函 数 的 改变 量 是 


L(w + 6) — L(w) = So P(a,y) log Pu+s(y|x) 一 PC x,y) log Pu(y|x) 
y 


=} Ply) 2 6:fily, y) -po Zeti Zu 


利用 不 等 式 


—loga>l-a, a>0 


建立 对 数 似 然 函数 改变 量 的 下 界 : 
L(w+6)—L(w) > Ji T, os fi(z,y)+1- Fe) fas) 
= 5 P(x,y) S RA y)+1-)> Pl(z) > Po(ylz) exp 》 ôi fila, y) 
x,y i=l z y i=1 
将 右 端 记 为 


A(d|w) = > P(z,y) Sate tle DP Pe (ylz) exp asly) 


TY 
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于 是 有 
L(w + 6) — L(w) > A(6lw) 


即 4(6lw) 是 对 数 似 然 函 数 改 变量 的 一 个 下 界 。 


如 果 能 找到 适当 的 6 使 下 界 4(6lw) 提高 , 那么 对 数 似 然 函数 也 会 提高 。 然 而 , 函 
数 Alw) 中 的 5 是 一 个 向 量 , 含有 多 个 变量 , 不 易 同 时 优化 。IIS 试图 一 次 只 优化 其 
中 一 个 变量 5;, 而 固定 其 他 变量 djs iA jo 


为 达到 这 一 目的 , TIS 进一步 降低 下 界 4(6lw)。 有 具体 地 , IIS 引进 一 个 量 f#(zx,y)， 


OEDD ACAN 


因为 fi 是 二 值 函数 , 故 f#(z,y) 表示 所 有 特征 在 (z,y) 出 现 的 次 数 。 这 样 ，4(5lw) 可 
以 改写 为 


A(6|w) = 2 Phe, y Dm filz, y) +1- 


DA #) Do Pe (ylz) exp (we y >> a - (6.30) 


= 


利用 指数 函数 的 同性 以 及 对 任意 有 ÅEN > 0 n pa 1 这 一 事实 ， 
根据 Jensen 不 等 式 , 得 到 


m (Si AEN agti w)< <E Fae waten) 
FÆR (6.30) 可 改写 为 
A(5|w) > 2 Pe, os fi(z,y) +1- 
Lia Lr win > (Fe LEN eve 630 


记 不 等 式 (6.31) 右 端 为 


Bw) =D Ply Da Fe WH POP > pr de 


i=1 
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Es} 


于 是 得 到 
L(w +ô) — L(w) > B(6|w) 
这 里 ，B(6lw) 是 对 数 似 然 函 数 改 变量 的 一 个 新 的 (相对 不 紧 的 ) 下 界 
SK B(d|w) 对 6; 的 偏 导数 : 


SFC) L E Pehle) — Pl) D Palle) flav) exp(Gi 4 (a0) (632) 


TY 


在 式 (6.32) E, BRO: 外 不 含 任何 其 他 变量 。 令 偏 导数 为 0 得 到 


Pis ~v (yle) fi(x, y) exp(6if # (2, y)) = Es(fi) (6.33) 


于 是 , 依次 对 6; 求解 方程 (6.33) 可 以 求 出 6。 

这 就 给 出 了 一 种 求 w 的 最 优 解 的 迭代 算法 , 即 改进 的 迭代 尺度 算法 IS. 

算法 6.1 (改进 的 迭代 尺度 算法 IIS) 

HA: 特征 函数 fi, f2,… , fn; 经 验 分 布 P(X, Y), 模型 P,(y|z); 

输出 : 最 优 参 数值 wis 最 优 模型 Pu o 

(1) 对 所 有 ie {1,2, ,n}, WIE wi = 0。 

(2) 对 每 一 ie {1,2,… ,n} 

(a) 令 6; 是 方程 

> P(x) Pula) fiw, y) exp(5:f* (x, y)) = Epli) 
TY 

的 解 , 这 里 ， 


y) = Dfi(z,y) 
i=1 


(b) 更 新 ui 值 : wi wi 十 0i。 
(3) 如 果 不 是 所 有 wi 都 收敛 , 重复 步 (2)。 国 
这 一 算法 关键 的 一 步 是 (a), 即 求解 方程 (6.33) 中 的 dio WR f#(z,y) 是 常数 , 即 
IHE x,y, 有 f#(z,y) = M, MA 6; 可 以 显 式 地 表示 成 


BE. Ep(fi) 
bi = 77 8 Ep EA) (6.34) 


如 果 f#(z,y) 不 是 常数 , 那么 必须 通过 数值 计算 求 5;。 简单 有 效 的 方法 是 牛顿 法 。 
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以 g(5;)=0 表示 方程 (6.33), 牛顿 法 通过 夫 代 求 得 党, 使 得 9(6#)==0。 和 迭代 公式 是 
seer) _ gt O (6.35) 
i t ga) 


只 要 适当 选取 初始 值 5(0 ,由 于 6; 的 方程 (6.33) 有 单 根 ,因此 牛顿 法 恒 收敛 , 而 且 收 
SCH PEAR 


6.3.2” 拟 牛顿 法 
最 大 炉 模型 学 习 还 可 以 应 用 牛顿 法 或 拟 牛 顿 法 。 参阅 附录 Bo 


WFR RATE 
exp (È wifi(z, v) 
Py(ylz) = —— 人 
Djexp (> wifi(z, v) 
y i=1 
目标 函数 : 


= Pm em (È wfe) -EPen L whe) 


梯度 : 


atu) = (H af(w) anan 


dw, ” dw2 ” 7 dun 


oe -EPOPEA E-E) tbo 
相应 的 拟 牛顿 法 BFGS 算法 如 下 。 
算法 6.2 RAWRAY BFGS 算法 ) 
HA: 特征 函数 fi, fo fins 经 验 分 布 P(x,y), 目标 函数 flw), 梯度 g(w) = 
Vf(w), 精度 要 求 £; 
输出 : 最 优 参 数值 w*; 最 优 模型 Pu-(ylz)。 
(1) 选 定 初始 点 wO, W Bo 为 正定 对 称 和 矩阵 , E k= 0; 
(2) 计算 gs = gwh). Æ |lgul| < a， 则 停止 计算 , 得 w* = uw; 否则 转 (3); 
(3) 由 Bkpk = 一 gx 求 出 pes 
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a 


(4) 一 维 搜索 : R Ar 使 得 


f(w™ + Anpe) = min f(w + Apr) 


(5) Bw) = w 十 ADk; 
(6) 计算 geyi = g(wt)), FF geyll < es， 则 停止 计算 , 得 w* = wt), 否则 ， 


按 下 式 求 出 Bk+1l: 
YEYL — Brondp Br 


Beri = Bet td, aT Bao 
其 中 ， 
Yk =9k+1— Gk, Ök = wth — wl) 
(7) Hk=k+1, # (3). E 
Tr 
本 章 概 要 


1. 逻辑 斯 详 回 归 模 型 是 由 以 下 条 件 概率 分 布 表 示 的 分 类 模型 。 逻辑 斯 谤 回归 模型 
可 以 用 于 二 类 或 多 类 分 类 。 


PH = — Kl 
1 十 > exp(wk » £) 
k=1 i 
P(Y = 天 |z) = aa 
1+ y exp(wk * x) 
k=1 


这 里 , z 为 输入 特征 , w 为 特征 的 权 值 。 

逻辑 斯 谤 回归 模型 源 自 逻 辑 斯 谤 分 布 , 其 分 布 函数 F(z) 是 S ER 
归 模 型 是 由 输入 的 线性 函数 表示 的 输出 的 对 数 几 率 模 型 。 

2. 最 大 烂 模型 是 由 以 下 条 件 概 率 分 布 表示 的 分 类 模型 。 最 大 入 模 型 也 可 以 用 于 二 
类 或 多 类 分 类 。 


Fi 


Paula) = Fj exp (> wifi ») 
i i=1 


Zw(x) = 》 exp (> wifi(a, ») 
y i=1 
HF, Zole) 是 规范 化 因子 ,fi 为 特征 函数 , wi 为 特征 的 权 值 。 
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3. BARRAT DA SAH ER ES FH» SEKI ER A RA HE AN 
AEN. SIG RUA FET FT RE RA CD) HREP, OK A 
是 最 好 的 模型 。 

Soc KJ ER BE DF BG) RI, 有 以 下 约束 最 优化 问题 : 


min —H(P)= 2 P(x)P(y|x) log P(y|x) 
st. P(f;,)—P(fi)=0, 1=1,2,---,n 


> Piya) =1 


SR APE LAE Bs Td Fe RA BLS Se I 

4. ERAS is E VSS EA ABR FS ERA 

5. REO EIRE Be Se KG A RAR, 或 正则 化 的 极 大 
MAATE. EEE SDT tis [VA De Se IG A BY BS CA RA Td Bo 求 
解 该 最 优化 问题 的 算法 有 改进 的 迭代 尺度 法 、 梯 度 下 降 法 、 拟 牛顿 法 。 


逻辑 斯 说 回归 的 介绍 参见 文献 上 ]， 最 大 焙 模 型 的 介绍 参见 文献 [2, 3。 逻辑 斯 详 
归 模 型 与 朴素 贝 叶 斯 模型 的 关系 参见 文献 外， 届 辑 斯 详 回 归 模 型 与 AdaBoost 的 关 
系 参见 文献 5, 逻辑 斯 详 回 归 模 型 与 核 函 数 的 关系 参见 文献 [6]。 


a 


4 题 


6.1 确认 逻辑 斯 详 分 布 属于 指数 分 布 族 。 
6.2 ” 写 出 逻辑 斯 诺 回 归 模型 学 习 的 梯度 下 降 算 法 。 
6.3 ” 写 出 最 大 焙 模 型 学 习 的 DFP 算法 。( 关 于 一 般 的 DFP 算法 参见 附录 B) 
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支持 向 量 机 (support vector machines, SVM) 是 一 种 二 类 分 类 模型 。 它 的 基本 模 
型 是 定义 在 特征 空间 上 的 间隔 最 大 的 线性 分 类 器 ,间隔 最 大 使 它 有 别 于 感知 机 ; 支持 
向 量 机 还 包括 核 技巧 , 这 使 它 成 为 实质 上 的 非 线 性 分 类 器 。 支持 向 量 机 的 学 习 策略 就 
是 间隔 最 大 化 ,可 形式 化 为 一 个 求解 凸 二 次 规划 Convex quadratic programming) 的 
问题 ， 也 等 价 于 正则 化 的 合 页 损失 函数 的 最 小 化 问题 。 支 持 向 量 机 的 学 习 算法 是 求解 
凸 二 次 规划 的 最 优化 算法 。 

支持 向 量 机 学 习 方 法 包含 构建 由 简 至 繁 的 模型 : 线性 可 分 支持 向 量 机 linear 
support vector machine in linearly separable case) 、 线 性 支持 向 量 机 (linear support 
vector machine) 以 及 非 线 性 支持 向 量 机 (non-linear support vector machine) 。 简 单 
模型 是 复杂 模型 的 基础 , 也 是 复杂 模型 的 特殊 情况 。 当 训练 数据 线性 可 分 时 , 通过 硬 
间隔 最 大 化 Chard margin maximization) ， 学 习 一 个 线性 的 分 类 器 ， 即 线性 可 分 支 
持 向 量 机 ,又 称 为 硬 间隔 支持 向 量 机 ; 当 训 练 数据 近似 线性 可 分 时 ,通过 软 间 隔 最 大 
化 (soft margin maximization)， 也 学 习 一 个 线性 的 分 类 器 , 即 线性 支持 向 量 机 ， 又 称 
为 软 间隔 支持 向 量 机 ; 当 训 练 数据 线性 不 可 分 时 , 通过 使 用 核 技巧 (kernel trick) 及 软 
间隔 最 大 化 ,学习 非 线性 支持 向 量 机 。 
当 输 入 空间 为 欧 氏 空间 或 离散 集合 、 特征 空间 为 希 尔 伯 特 空间 时 , 核 函数 (kernel 
function) 表示 将 输入 从 输入 空间 映射 到 特征 空间 得 到 的 特征 向 量 之 间 的 内 积 。 通 过 
使 用 核 函数 可 以 学 习 非 线性 支持 向 量 机 ， 等 价 于 隐 式 地 在 高 维 的 特征 空间 中 学 习 线 性 
支持 向 量 机 。 这 样 的 方法 称 为 核 技巧 。 核 方法 (kernel method) 是 比 支 持 向 量 机 更 为 
一 般 的 机 器 学 习 方法 。 

Cortes 与 Vapnik 提出 线性 支持 向 量 机 ，Boser、Guyon 与 Vapnik 又 引入 核 技巧 ， 
提出 非 线性 支持 向 量 机 。 
本 章 按照 上 述 思路 介绍 3 类 支持 向 量 机 、 核 函数 及 一 种 快速 学 习 算 法 —— 序列 
最 小 最 优化 算法 (SMO). 
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71 线性 可 分 支持 向 量 机 与 硬 间隔 最 大 化 


7.1.1 线性 可 分 支持 向 量 机 


考虑 一 个 二 类 分 类 问题 。 假 设 输入 空间 与 特征 空间 为 两 个 不 同 的 空间 。 输入 空间 
为 欧 氏 空间 或 离散 集合 , 特征 空间 为 欧 氏 空间 或 希 尔 伯 特 空间 。 线性 可 分 支持 向 量 机 、 
线性 支持 向 量 机 假设 这 两 个 空间 的 元 素 一 一 对 应 , 并 将 输入 空间 中 的 输入 映射 为 特征 
空间 中 的 特征 向 量 。 非 线性 支持 向 量 机 利用 一 个 从 输入 空间 到 特征 空间 的 非 线 性 映射 
将 输入 映射 为 特征 向 量 。 所 以 , 输入 都 由 输入 空间 转换 到 特征 空间 , 支持 向 量 机 的 学 
习 是 在 特征 空间 进行 的 。 

假设 给 定 一 个 特征 空间 上 的 训练 数据 集 


T = {(21, y1), (£2,Y2) , (ZN, YN)} 


其 中 , zi € =R”, y; € Y= {+1, 一 1}, i = 1,2,… ,NN。 zi 为 第 i 个 特征 向 量 , 也 
称 为 实例 , y 为 zi; 的 类 标记 。 当 yi = +1 时 , Ko; 为 正 例 ; yi = 一 1 时 , Ka; 为 
负 例 。(zi, yi) 称 为 样本 点 。 再 假设 训练 数据 集 是 线性 可 分 的 ( 见 定义 2.2)。 

学 习 的 目标 是 在 特征 空间 中 找到 一 个 分 离 超 平面 , 能 将 实例 分 到 不 同 的 类 。 分 离 
超 平 面 对 应 于 方程 w。z +b =0, 它 由 法 向 量 w MARE b 决定 ,可 用 (w, b) RER. 
分 离 超 平面 将 特征 空间 划分 为 两 部 分 , 一 部 分 是 正 类 , 一 部 分 是 负 类 。 法 向 量 指向 的 
一 侧 为 正 类 , 另 一 侧 为 负 类 。 

一 般 地 ， 当 训练 数据 集 线 性 可 分 时 ,存在 无 穷 个 分 离 超 平面 可 将 两 类 数据 正确 分 
Fe 感知 机 利用 误 分 类 最 小 的 策略 , 求 得 分 离 超 平面 , 不 过 这 时 的 解 有 无 穷 多 个 。 线 
性 可 分 支持 向 量 机 利用 间隔 最 大 化 求 最 优 分 离 超 平面 , 这 时 , 解 是 唯一 的 。 

定义 7.1 (线性 可 分 支持 向 量 机 ) ”给 定 线性 可 分 训练 数据 集 , 通过 间隔 最 大 化 或 
等 价 地 求解 相应 的 凸 二 次 规划 问题 学 习 得 到 的 分 离 超 平面 为 


w*+xr+b*=0 (7.1) 

以 及 相应 的 分 类 决策 函数 
f(x) = sign(w* »。 x+ b*) (7.2) 

称 为 线性 可 分 支持 向 量 机 。 
考虑 如 图 7.1 所 示 的 二 维特 征 空间 中 的 分 类 问题 图 中 “o” 表 示 正 例 , “x” 表 示 


负 例 。 训 练 数据 集 线 性 可 分 , 这 时 有 许多 直线 能 将 两 类 数据 正确 划分 。 线 性 可 分 支持 
向 量 机 对 应 着 将 两 类 数据 正确 划分 并 且 间 隔 最 大 的 直线 , 如 图 7.1 所 示 。 
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图 7.1 二 类 分 类 问题 


间隔 最 大 及 相应 的 约束 最 优化 问题 将 在 下 面 叙 述 。 这 里 先 介 绍 函 数 间 隅 和 几何 间 


7.1.2 ”函数 间隔 和 几何 间隔 


在 图 7.1 中 , AA, B, C 三 个 点 , 表示 3 个 实例 , 均 在 分 离 超 平面 的 正 类 一 侧 ， 
预测 它们 的 类 。 点 4 距 分 离 超 平面 较 远 , 若 预 测 该 点 为 正 类 , 就 比较 确信 预测 是 正确 
的 ; 点 C 距 分 离 超 平面 较 近 , 若 预 测 该 点 为 正 类 就 不 那么 确信 ; 点 B 介 于 点 4 与 C 
之 间 , 预测 其 为 正 类 的 确信 度 也 在 A 与 C 之 间 。 

一 般 来 说 , 一 个 点 距离 分 离 超 平面 的 远近 可 以 表示 分 类 预测 的 确信 程度 。 在 超 平 
面 w.z+b= 0 确定 的 情况 下 ,|w.z+i 能 够 相对 地 表示 点 x 距离 超 平面 的 远近 。 
而 w。z 十 b 的 符号 与 类 标记 y 的 符号 是 否 一 致 能 够 表示 分 类 是 否 正确 。 所 以 可 用 量 
y(w ea +b) 来 表示 分 类 的 正确 性 及 确信 度 ， 这 就 是 函数 间隔 (functional margin) 的 

定义 7.2 (函数 间隔 ) ”对 于 给 定 的 训练 数据 集 T 和 超 平面 (wb) 定义 超 平面 
(w,b) 关于 样本 点 (ci, yi) 的 函数 间隔 为 


ĝi = yi(w ea; +b) (7.3) 


定义 超 平面 (wb) 关于 训练 数据 集 T 的 函数 间隔 为 超 平面 (w,b) AFT 中 所 有 
样本 点 (01, yi) 的 函数 间隔 之 最 小 值 ， 即 


ĝ= min ĵi 7.4) 


i=l, 


函数 间隔 可 以 表示 分 类 预测 的 正确 性 及 确信 度 。 但 是 选择 分 离 超 平面 时 , 只 有 
数 间隔 还 不 够 。 因 为 只 要 成 比例 地 改变 w Alb, 例如 将 它们 改 为 2w 和 2, E] 


Ns 
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没有 改变 , 但 函数 间隔 却 成 为 原来 的 2 倍 。 这 一 事实 启示 我 们 ,可 以 对 分 离 超 平面 的 
法 向 量 w 加 某 些 约束 , 如 规范 化 , w= 1, 使 得 间隔 是 确定 的 。 这 时 函数 间隔 成 为 几 
何 间隔 (geometric margin) 。 

图 7.2 给 出 了 超 平面 (w,b) 及 其 法 向 量 we 点 4 表示 某 一 实例 z;， 其 类 标记 为 
yo=tl. 点 4 与 超 平面 (w,b) 的 距离 由 线段 4B 给 出 , WE yio 


cs w oi b 
vl ll 


其 中 , wll Aw AY La 范 数 。 这 是 点 A 在 超 平面 正 的 一 侧 的 情形 。 如 果 点 4 在 超 平面 
负 的 一 侧 , B y; = 一 1, 那么 点 与 超 平面 的 距离 为 


s=- z+) 
‘= Tol Tol 


一 般 地 ， 当 样本 点 (xi yi) 被 超 平 面 (w,b) 正确 分 类 时 ， 点 zi 与 超 平面 (w, b) 的 


距离 是 
= (Ge m+) 
V= H Tol” Tol 


这 一 事实 导出 几何 间隔 的 概念 。 


图 7.2 ”几何 间隔 
定义 7.3 (几何 间隔 ) ”对 于 给 定 的 训练 数据 集 T 和 超 平面 (w, 中 ,定义 超 平面 
(w,b) 关于 样本 点 (xi yi) 的 几何 间隔 为 
w b 
| ee 75 
ý aira a+r) ve) 


EMBED (w,b) 关于 训练 数据 集 T 的 几何 间隔 为 超 平面 (wu,b) KFT 中 所 有 
样本 点 (oi, ys) 的 几何 间隔 之 最 小 值 ， 即 


q= min „Yi (7.6) 


i=l, 
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EFH (w,b) 关于 样本 点 (xi yi) 的 几何 间隔 一 般 是 实例 点 到 超 平 面 的 带 符号 的 
距离 (signed distance) ， 当 样本 点 被 超 平面 正确 分 类 时 就 是 实例 点 到 超 平面 的 距离 。 

从 函数 间隔 和 几何 间隔 的 定义 ( 式 (7.3)~ 式 (7.6)) WTA, 函数 间隔 和 几何 间隔 有 
下 面 的 关系 : 


ii 
Y= Tet 
Tol (on) 

r 
TEE 7.8 
Twi (78) 


WR lwl] = 1, 那么 函数 间隔 和 几何 间隔 相等 。 如 果 超 平面 参数 w Alb 成 比例 地 改 
X ( 超 平面 没有 改变 )， 函 数 间隔 也 按 此 比例 改变 ， 而 几何 间隔 不 变 。 


7.1.3 间隔 最 大 化 


支持 向 量 机 学 习 的 基本 想法 是 求解 能 够 正确 划分 训练 数据 集 并 且 几 何 间 隔 最 大 
的 分 离 超 平面 。 对 线性 可 分 的 训练 数据 集 而 言 , 线性 可 分 分 离 超 平面 有 无 穷 多 个 (等 
价 于 感知 机 )， 但 是 几何 间隔 最 大 的 分 离 超 平面 是 唯一 的 。 这 里 的 间隔 最 大 化 又 称 为 
硬 间隔 最 大 化 “与 将 要 讨论 的 训练 数据 集 近似 线性 可 分 时 的 软 间隔 最 大 化 相对 应 )。 

间隔 最 大 化 的 直观 解释 是 : 对 训练 数据 集 找到 几何 间隔 最 大 的 超 平面 意味 着 以 充 
分 大 的 确信 和 度 对 训练 数据 进行 分 类 。 也 就 是 说 , 不 仅 将 正 负 实例 点 分 开 , 而 且 对 最 难 
分 的 实例 点 ( 离 超 平面 最 近 的 点 ) 也 有 足够 大 的 确信 度 将 它们 分 开 。 这样 的 超 平面 应 
该 对 未 知 的 新 实例 有 很 好 的 分 类 预测 能 力 。 


1. 最 大 间隔 分 离 超 平 面 


下 面 考虑 如 何 求 得 一 个 几何 间隔 最 大 的 分 离 超 平面 即 最 大 间隔 分 离 超 平面 。 具 
体 地 , 这 个 问题 可 以 表示 为 下 面 的 约束 最 优化 问题 : 


max 7 (7.9) 
w b 
tan nwt | Sq = 7.10 
ste g mi mt Tq) > i eo) 
即 我 们 希望 最 大 化 超 平面 (w,b) 关于 训练 数据 集 的 几何 间隔 y, 约束 条 件 表示 的 是 超 
平面 (w, b) 关于 每 个 训练 样本 点 的 几何 间隔 至 少 是 7。 
考虑 几何 间隔 和 函数 间隔 的 关系 式 (7.8), 可 将 这 个 问题 改写 为 


max 一 一 
wb llwll 
st. yi(w e. Tit+b) >4, 1=1,2,---,N (7.12) 
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KAOU S 的 取 值 并 不 影响 最 优化 问题 的 解 。 事实 上 , 假设 将 w 和 6b 按 比 例 改 
BEA Nw 和 Xb, 这 时 函数 间隔 成 为 入。 函数 间隔 的 这 一 改变 对 上 面 最 优化 问题 的 不 
等 式 约束 没有 影响 , 对 目标 函数 的 优化 也 没有 影响 , 也 就 是 说 , 它 产生 一 个 等 价 的 最 


优化 问题 。 这 样 ， 就 可 以 取 ? = 1。 将 他 = 1 代入 上 面 的 最 优化 问题 , 注意 到 最 大 化 


ial 和 最 小 化 zol 是 等 价 的 , 于 是 就 得 到 下 面 的 线性 可 分 支持 向 量 机 学 习 的 最 优 
化 问题 : 
mip lel (7.13) 
st. Mo vith) -1>0 i=1,2,.,N (7.14) 


这 是 一 个 凸 二 次 规划 (convex quadratic programming) 问题 。 


凸 优化 问题 是 指 约束 最 优化 问题 
min f(w) (7.15) 
st. gi(w) <0, 1=1,2,---,k (7.16) 
hi(w)=0, i=1,2,---,l (7.17) 


其 中 , 目标 函数 f(w) 和 约束 函数 gi(w) ABER” 上 的 连续 可 微 的 凸 函数 ,约束 函数 
hi(w) ÆR” 上 的 仿 射 函数 中 。 

当 目 标 函 数 f(w) 是 二 次 函数 且 约束 函数 gi(w) 是 仿 射 函 数 时 ， 上 述 凸 最 优化 问 
题 成 为 凸 二 次 规划 问题 。 

如 果 求 出 了 约束 最 优化 问题 (7.13)~(7.14) 的 解 w*,b*, 那么 就 可 以 得 到 最 大 间隔 
分 离 超 平面 w*。z 十 b* = 0 及 分 类 决策 函数 f(z) = sign(w* 。z 十 办 )， 即 线性 可 分 支 
持 向 量 机 模型 。 

综 上 所 述 , 就 有 下 面 的 线性 可 分 支持 向 量 机 的 学 习 算 法 一 一 最 大 间隔 法 (maximum 
margin method) 。 

算法 7.1 (线性 可 分 支持 向 量 机 学 习 算 法 最 大 间隔 法 ) 

输入 : 线性 可 分 训练 数据 集 T = {(x1, 1), (7Z2,y2),… , (ZN,YyN)}， 其 中 ,zi € 
X=R", yey={-1,+1}, i=1,2,.…,N; 

输出 : 最 大 间隔 分 离 超 平面 和 分 类 决策 函数 。 


© f(x) 称 为 仿 射 函数 , 如 果 它 满足 f(r) =a-r+b,aER",bER, cER”. 
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(1) 构造 并 求解 约束 最 优化 问题 : 


min =w] 
wb 2 a 
s.t. y(weaj+b)-12>0, i=1,2,---,N 


求 得 最 优 解 w*,b*。 
(2) 由 此 得 到 分 离 超 平面 : 


w*er+b* =0 


分 类 决策 函数 
f(x) = sign(w* + £ + b*) a 

2. 最 大 间隔 分 离 超 平面 的 存在 唯一 性 

线性 可 分 训练 数据 集 的 最 大 间隔 分 离 超 平面 是 存在 且 唯 一 的 。 

定理 7.1〈 最 大 间隔 分 离 超 平面 的 存在 唯一 性 ) ”车 训练 数据 集 工 线性 可 分 ， 则 
可 将 训练 数据 集中 的 样本 点 完全 正确 分 开 的 最 大 间隔 分 离 超 平面 存在 且 唯 一 。 

证 明 (1) 存在 性 
1 于 训练 数据 集 线 性 可 分 ， 所 以 算法 7.1 中 的 最 优化 问题 (7.13)~(7.14) 一 定 
存在 可 行 解 。 又 由 于 目标 函数 有 下 界 ， 所 以 最 优化 问题 (7.13)~(7.14) VAME, WE 
(w*,b*)。 由 于 训练 数据 集中 既 有 正 类 点 又 有 负 类 点 , 所 以 (w,b) = (0, 不 是 最 优化 
的 可 行 解 ,因而 最 优 解 (w*,b*) 必 满足 w* A 0。 由 此 得 知 分 离 超 平面 的 存在 性 。 

(2) 唯一 性 

首先 证 明 最 优化 问题 (7.13)~(7.14) 解 中 w 的 唯一 性 。 假设 问题 (7.13)~(7.14) 
存在 两 个 最 优 解 (wi, bt) Mwg, bs) BA wt = lwz = ec， 其 中 ec 是 一 个 常数 。 令 


ze, p= PITO, say (w, b) 是 问题 (7.13)~(7.14) 的 可 行 解 , 从 而 有 


yey ty, 
e< lol < ilwil+ alsl =e 


上 式 表明 ， 式 中 的 不 等 号 可 变 为 等 号 ， 即 jel) = 下 el 二 lezl 从 而 有 w? = 
Aw3, | 和 | =1. 车 入 = 一 1, 则 w= 0, (w,b) 不 是 问题 (7.13)~(7.14) 的 可 行 解 , 矛盾 。 
因此 必 有 入 二 1, 即 


wi = w3 


1 此 可 以 把 两 个 最 优 解 (we, DY) 和 (w5, b3) 分 别 写成 (w*, b4) 和 (w*, 03). FRE 
bi = bjo War Alc, 是 集合 {zily = +1} 中 分 别 对 应 于 (w*, b3) 和 (w*, bs) 使 得 问 
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题 的 不 等 式 等 号 成 立 的 点 ,，zY 和 路 是 集合 {zilyi = 一 1} 中 分 别 对 应 于 (w*, bt) 和 
(w*, bs) 使 得 问题 的 不 等 式 等 号 成 立 的 点 , SU bp = 一 


1 , 
-a -r +w* e r3) 得 


1 
了 er, +wu*+c{), b3 = 


1 
bi — b3 = —5[w" (21 — 22) + w" + (z1 — 29)] 


w* e r3 +b] >l=w* +a, +b 
w* ea, +b3 > 1=uw* . r3 +b 
所 以 , w* e (x) — 24) =0. HEA w* + (£Y — x3) = 0。 因 此 ， 


bs — bs =0 


HH wt = w3 F bt = b5 可 知 ， PASTE (wi, bt) AM (w3, 05) 是 相同 的 , 解 的 唯一 性 
得 证 。 


问题 (7.13)~(7.14) 解 的 唯一 性 即 得 分 离 超 平面 是 唯一 的 。 

(3) 分 离 超 平面 能 将 训练 数据 集中 的 两 类 点 完全 正确 地 分 开 。 

1 解 满 足 问题 的 约束 条 件 即 可 得 知 。 a 
3. 支持 向 量 和 间隔 边界 


在 线性 可 分 情况 下 , 训练 数据 集 的 样本 点 中 与 分 离 超 平面 距离 最 近 的 样本 点 的 实例 
称 为 支持 向 量 (support vector)。 支 持 向 量 是 使 约束 条 件 式 (7.14) 等 号 成 立 的 点 ， 即 


yi(w + xi +b)-1=0 
对 yi; = +1 的 正 例 点 , 支持 向 量 在 超 平 面 
Fi:w.r+b=1 
E, 对 yi = 一 1 的 负 例 点 , 支持 向 量 在 超 平面 
Ha:w. r+b=—1 


E. 如 图 7.3 所 示 , 在 Ay All Ho 上 的 点 就 是 支持 向 量 。 
注意 到 H 和 Hs 平行 , 并 且 没 有 实例 点 落 在 它们 中 间 。 在 H 与 H 之 间 形 成 一 
条 长 带 , 分 离 超 平面 与 它们 平行 且 位 于 它们 中 央 。 长 带 的 宽度 , B H 与 H 之 间 的 距 
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~ Of 2 
H, © |w] 


=- 


图 7.3 ”支持 向 量 


高 称 为 间隔 margin) 。 问 隔 依 赖 于 分 离 超 平面 的 法 向 量 w, 等 于 让。 Hi 和 二 称 
为 间隔 边界 。 

在 决定 分 离 超 平面 时 只 有 支持 向 量 起 作用 ,而 其 他 实例 点 并 不 起 作用 。 如 果 移动 
支持 向 量 将 改变 所 求 的 解 ; 但 是 如 果 在 间隔 边界 以 外 移动 其 他 实例 点 ,甚至 去 掉 这 些 
点 , 则 解 是 不 会 改变 的 。 由 于 支持 向 量 在 确定 分 离 超 平面 中 起 着 决定 性 作用 ,所 以 将 
这 种 分 类 模型 称 为 支持 向 量 机 。 支 持 向 量 的 个 数 一 般 很 少 , 所 以 支持 向 量 机 由 很 少 
的 “重要 的 ”训练 样本 确定 。 

例 7.1 数据 与 例 2.1 相同 。 已 知 一 个 如 图 7.4 所 示 的 训练 数据 集 , 其 正 例 点 是 
x1 = (3,3)T, x2 = (4,3)T， 负 例 点 是 za = (1, 1)T， 试 求 最 大 间隔 分 离 超 平面 。 


a 


aw | fo | mw 
0 12 3 4 5 6 x 


图 7.4 间隔 最 大 分 离 超 平面 示例 


解 ”按照 算法 7.1, 根据 训练 数据 集 构造 约束 最 优化 问题 :; 


1 
min 5(wt +w) 
s.t. 3wı+3w2+b21 

4u, +3w2 +b 21 


一 1 —w—b21 
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求 得 此 最 优化 问题 的 解 wi = we = D b= 一 2。 于 是 最 大 间隔 分 离 超 平面 为 
10 $ 5a 一 2=0 


其 中 , zl = (3,3)7 与 za = (1,1)7 为 支持 向 量 。 B 


7.14 学 习 的 对 偶 算 法 


为 了 求解 线性 可 分 支持 向 量 机 的 最 优化 问题 (7.13)~(7.14), 将 它 作 为 原始 最 优化 
问题 ， 应 用 拉 格 朗 日 对 偶 性 〈 参 阅 附 录 C),， 通 过 求解 对 偶 问 题 (dual problem) 得 到 
原始 问题 (primal problem) 的 最 优 解 ,这 就 是 线性 可 分 支持 向 量 机 的 对 偶 算 法 (dual 
algorithm) 。 这 样 做 的 优点 , 一 是 对 偶 问题 往往 更 容易 求解 , 二 是 自然 引入 核 函数 , 进 
而 推广 到 非 线性 分 类 问题 。 
首先 构建 拉 格 朗 日 函数 (Lagrange function) 。 为 此 , 对 每 一 个 不 等 式 约束 (7.14) 
引进 拉 格 明日 乘 子 (Lagrange multiplier) a; > 0, i = 1,2,---,N, 定义 拉 格 朗 日 
函数 : 


N N 
1 
L(w,b, a) = zlel? -J aiyi(w vith) + Da (7.18) 
i=1 i=1 


其 中 , a = (al qz,… an)? 为 拉 格 朗 日 乘 子 向 量 。 
根据 拉 格 朗 日 对 偶 性 ， 原 始 问题 的 对 偶 问题 是 极 大 极 小 问题 : 


max min L(w, b, a) 
a wb 


所 以 , 为 了 得 到 对 偶 问题 的 解 , 需要 先 求 Z(uw, b,x) 对 w,b 的 极 小 , 再 求 对 a 的 极 大 。 
(1) min L(w,b, a) 
将 拉 格 朗 日 函数 L(w, b,x) 分 别 对 w, b 求 偏 导数 并 令 其 等 于 0。 
N 
VwLl(w,b,a) = w — >》 aiyizi =0 
i=1 


N 
VoL (w,b,a) =— > aiyi =0 
i=1 


N 
w= > aiyizi (7.19) 
i=1 
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N 
Yay: =0 (7.20) 


将 式 (7.19) 代入 拉 格 朗 日 函数 (7.18), 并 利用 式 (7.20), 即 得 


N N N N 
Ya AQ; YY; (Li + Tj) -2 oiv: ( ons 。Ti 十 ) +5 Qi 
=i j=l i=1 


1x 
L(w,b,a) = 222 


1 
= iQjYiYj (Ti © Tj) 5m 


i=1 
即 


min L( (w,b,a) = ASS cron Lie Tj +a 


i=1 j=1 


(2) 求 min L(w, b, a) 对 a WRK, 即 是 对 偶 问题 


max 一 7 ph curity Zi。271) 十 Yo (7.21) 


2a 


pe =0 


i=1 


将 式 (7.21) 的 目标 函数 由 求 极 大 转换 成 求 极 小 ,就 得 到 下 面 与 之 等 价 的 对 偶 最 优 
化 问题 : 


NN N 
min 3 p de 105 YiY (Ti * £j) 一 2 Qi (7.22) 
s.t. > aiyi =0 (7.23) 
a i=1,2,---,N (7.24) 


考虑 原始 最 优化 问题 (7.13)~(7.14) 和 对 偶 最 优化 问题 (7.22)~(7.24), 原始 问题 
满足 定理 C.2 的 条 件 , 所 以 存在 w*,a*,B*, 使 w* 是 原始 问题 的 解 , a*,B* 是 对 偶 问题 
的 解 。 这 意味 着 求解 原始 问题 (7.13)~(7.14) 可 以 转换 为 求解 对 偶 问题 (7.22)~(7.24)。 

对 线性 可 分 训练 数据 集 ， 假 设 对 偶 最 优化 问题 (7.22)~(7.24) 对 a 的 解 为 ar = 
(oj oa)T， 可 以 由 a* 求 得 原始 最 优化 问题 (7.13)~(7.14) 对 (w, b) 的 解 
w*,b*。 有 下 面 的 定理 。 
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定理 7.2 Ba* = (at,ad,--- af)? 是 对 偶 最 优化 问题 (7.22)~(7.24) 的 解 ， 则 
BEFIT j, 使 得 OF > 0, 并 可 按 下 式 求 得 原始 最 优化 问题 (7.13)~(7.14) 的 解 w*,b*: 


N 
w* = 5 OF YiTi (7.25) 
i=1 
N 
b" = yj— $ afyi(ai + z) (7.26) 
i=1 


证 明 ”根据 定理 C.3, KKT 条 件 成 立 , 即 得 


N 
VwLl(w*,b*,a*) = w* — Day =0 (7.27) 
i=1 
N 
ViL(w*, b,a") =-) ayw=0 
i=l 


aj (yi(w* + xi +b*)-1)=0, 1=1,2,---,N 
yi(w* e xti +b*)-1>0, i=1,2,---,N 
af>0, i=1,2,---,N 


由 此 得 


w= > Oj YiXi 
a 


HP RAT af > 0 (用 反 证 法 , 假设 a* = 0, 由 式 (7.27) 可 知 w* = 0, 而 w* = 0 
不 是 原始 最 优化 问题 (7.13)~(7.14) 的 解 , 产生 矛盾 ), 对 此 7 有 


y;(w* «a; +b*)-1=0 (7.28) 


将 式 (7.25) 代入 式 (7.28) 并 注意 到 好 = 1, 即 得 


N 
b = yj — > afyi(ai + 25) m 
i=1 


1 此 定理 可 知 , 分 离 超 平面 可 以 写成 


N 
> ayyi(z + xi) +b" =0 (7.29) 


s=1 
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分 类 决策 函数 可 以 写成 


N 
f(x) =sign (> Qtyi(T + xi) 十 r) (7.30) 


i=l 


这 就 是 说 , 分 类 决策 函数 只 依赖 于 输入 z 和 训练 样本 输入 的 内 积 。 式 (7.30) 称 为 线性 


可 分 支持 向 


量 机 的 对 偶 形式 。 


综 上 所 述 , 对 于 给 定 的 线性 可 分 训练 数据 集 , 可 以 首先 求 对 偶 问 题 (7.22)~(7.24) 


的 解 a*; 再 利用 式 (7.25) 和 式 (7.26) 求 得 原始 问题 的 解 w*,b*; 从 而 得 到 分 离 超 平面 
及 分 类 决策 函数 。 这 种 算法 称 为 线性 可 分 支持 向 量 机 的 对 偶 学 习 算 法 ,是 线性 可 分 支 
持 向 量 机 学 习 的 基本 算法 。 

算法 7.2 (线性 可 分 支持 向 量 机 学 习 算 法 ) 

输入 : 线性 可 分 训练 集 了 = {(zt 41), (12,92) , (ZN,YN)}, 其 中 tie =R”, 
yi E Y = {-1,4+1}, i=1,2,.…,N; 

输出 : 分 离 超 平面 和 分 类 决策 函数 。 


(1) 构造 并 求解 约束 最 优化 问题 
1 NN N 
min 3 2 2 isis (i “7)— Do 
i=1 j=1 i=1 
N 
s.t. >》 aii =0 
#=1 
20, += 1,2; sy 
求 得 最 优 解 a” = (af, a3,--- ,aN)T。 
算 


(2) 计 


N 
w* = > OF YiTi 


i=1 
并 选择 a* 的 一 个 正 分 量 a; > 0, 计算 
N 
bY = yj- >》 afyi(ai zj) 
i=1 
(3) 求 得 分 离 超 平面 
w*ert+h*=0 
分 类 决策 函数 : 
f(x) = sign(w* + £+ b*) a 
在 线性 可 分 支持 向 量 机 中 , 由 式 (7.25). sh (7.26) 可 知 , w* 和 b* 只 依赖 于 训练 
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数据 中 对 应 于 ay > 0 的 样本 点 (ziyi) 而 其 他 样本 点 对 w* 和 b* 没有 影响 。 我 们 将 
训练 数据 中 对 应 于 ay > 0 的 实例 点 zi E€ R” 称 为 支持 向 量 。 

定义 7.4 (支持 向 量 ) ”考虑 原始 最 优化 问题 (7.13)~(7.14) 及 对 偶 最 优化 问题 
(7.22)~(7.24)， 将 训练 数据 集中 对 应 于 at > 0 的 样本 点 (ci, yi) 的 实例 mi E R” 称 为 
支持 向 量 。 

根据 这 一 定义 , 支持 向 量 一 定 在 间隔 边界 上 。 由 KKT 互补 条 件 可 知 ， 


a; (yi(w* «a,+6*)-1)=0, i=1,2,---,N 
对 应 于 af > 0 的 实例 ri 有 
yi(w* «a; +b*)-1=0 
或 
wea, +b* =+1 

即 wx; 一 定 在 间隔 边界 上 。 这 里 的 支持 向 量 的 定义 与 前 面 给 出 的 支持 向 量 的 定义 是 一 
致 的 。 

例 7.2 训练 数据 与 例 7.1 相同 。 如 图 7.4 所 示 , 正 例 点 是 zi = (3,3)T, r2 = 
(4,3)T， 负 例 点 是 za = (1,1)7， 试 用 算法 7.2 求 线性 可 分 支持 向 量 机 。 

fA ”根据 所 给 数据 , 对 偶 问 题 是 


1 N 
min 32, 
t=1 

1 


= zai + 25a3 + 2a3 + 42a,a2 — 12a1Q3 — 14a203) — a1 — ag — a3 


s.t. al 十 az 一 as 一 0 


a,20, i=1,2,3 


N N 
O40; YiY; (Ti * £j) 一 > ai 
j=l i=1 


解 这 一 最 优化 问题 。 将 as = aa + aa 代入 目标 函数 并 记 为 


13 
s(Q1, 02) = 4a? + 7% + 10a1a2 — 2a; — 2a2 


T. 
对 oa，oas 求 偏 导数 并 令 其 为 0, BAI s(a, a2) 在 点 (人 取 极 值 , 但 该 点 不 满足 
约束 条 件 oa > 0» 所 以 最 小 值 应 在 边界 上 达到 。 
i 


4 an = 0 时 , 最 小 值 s (0 3) 2s 当 oo =0 时 ,最 小 值 s (9 = 


FÆ s(a1,a2) 在 al = po = 0 达到 最 小 , 此 时 as =a, +02 = i 
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t$, aj = a3 = ; 对 应 的 实例 点 zl, zs 是 支持 向 量 。 根 据 式 (7.25) 和 式 (7.26) 
计算 得 


分 离 超 平面 为 


1 1 
S0 ee 


f(a) = sign (Ge + 52? = 2) 国 
对 于 线性 可 分 问题 ， 上述 线 性 可 分 支持 向 量 机 的 学 习 ( 硬 间隔 最 大 化 ) 算法 是 完 


美的 。 但 是 , 训练 数据 集 线 性 可 分 是 理想 的 情形 。 在 现实 问题 中 , 训练 数据 集 往往 是 
线性 不 可 分 的 , 即 在 样本 中 出 现 噪声 或 特异 点 。 此 时 ,， 有 更 一 般 的 学 习 算 法 。 


7.2 ”线性 支持 向 量 机 与 软 间隔 最 大 化 


7.2.1 线性 支持 向 量 机 

线性 可 分 问题 的 支持 向 量 机 学 习 方 法 ， 对 线性 不 可 分 训练 数据 是 不 适用 的 ， 因 为 
这 时 上 述 方法 中 的 不 等 式 约束 并 不 能 都 成 立 。 怎 么 才能 将 它 扩 展 到 线性 不 可 分 问题 
呢 ? 这 就 需要 修改 硬 间 隔 最 大 化 ， 使 其 成 为 软 间隔 最 大 化 。 

假设 给 定 一 个 特征 空间 上 的 训练 数据 集 


T = {(z 491); (2, ya2) , (EN, YN)} 


HP, zi eX =R”, yeD={+D-i=12…,N，ci 为 第 ?个 特征 向 量 ， yi 
为 zi 的 类 标记 。 再 假设 训练 数据 集 不 是 线性 可 分 的 。 通 常情 况 是 , 训练 数据 中 有 一 些 
特异 点 (outlier)， 将 这 些 特异 点 除去 后 , 剩 下 大 部 分 的 样本 点 组 成 的 集合 是 线性 可 
分 的 。 

线性 不 可 分 意味 着 某 些 样本 点 (zi, ys) 不 能 满足 函数 间隔 大 于 等 于 1 的 约束 条 件 
(7.14)。 为 了 解决 这 个 问题 , 可 以 对 每 个 样本 点 (miyi) 引进 一 个 松弛 变量 &; > 0, 使 
函数 间隔 加 上 松弛 变量 大 于 等 于 1。 这样 ,约束 条 件 变 为 


yi(w + z; +b) > 1-— éi 
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同时 , 对 每 个 松弛 变量 &;, 支付 一 个 代价 Eio 目标 函数 由 原来 的 zol 变 成 


N 

1 

glu? +O > é (7.31) 
i=1 


这 里 ，C > 0 称 为 惩罚 参数 , 一 般 由 应 用 问题 决定 , C 值 大 时 对 误 分 类 的 惩罚 增 大 , C 
值 小 时 对 误 分 类 的 惩罚 减 小 。 最 小 化 目标 函数 (7.31) 包含 两 层 含义 : 使 zol 尽量 
小 即 间隔 尽量 大 ， 同 时 使 误 分 类 点 的 个 数 尽量 小 ，C 是 调和 二 者 的 系数 。 

有 了 上 面 的 思路 , 可 以 和 训练 数据 集 线 性 可 分 时 一 样 来 考虑 训练 数据 集 线 性 不 可 
分 时 的 线性 支持 向 量 机 学 习 问 题 。 相应 于 硬 间隔 最 大 化 , 它 称 为 软 间 隔 最 大 化 。 

线性 不 可 分 的 线性 支持 向 量 机 的 学 习 问 题 变 成 如 下 凸 二 次 规划 Convex quadratic 
programming) 问题 (原始 问题 ): 


N 
A 1 2 
1 .32 
min zlwl + (7.32) 
Ee WE #=1,2,---,N (7.33) 
i = (7.34) 


原始 问题 (7.32)~(7.34) 是 一 个 凸 二 次 规划 问题 因而 关于 (ww, b, €) 的 解 是 存在 
的 。 可 以 证 明 w 的 解 是 唯一 的 , 但 5 的 解 可 能 不 唯一 , 而 是 存在 于 一 个 区 间 OY, 

设 问题 (7.32)~(7.34) KRE w, b, 于 是 可 以 得 到 分 离 超 平面 w*。z 十 b* =0 
及 分 类 决策 函数 f(z) = sign(w*。zz 十 *)。 称 这 样 的 模型 为 训练 样本 线性 不 可 分 时 的 
线性 支持 向 量 机 , 简称 为 线性 支持 向 量 机 。 显 然 , 线性 支持 向 量 机 包含 线性 可 分 支持 
向 量 机 。 由 于 现实 中 训练 数据 集 往往 是 线性 不 可 分 的 , 线性 支持 向 量 机 具有 更 广 的 适 
用 性 。 

下 面 给 出 线性 支持 向 量 机 的 定义 。 

定义 7.5 (线性 支持 向 量 机 ) ”对 于 给 定 的 线性 不 可 分 的 训练 数据 集 , 通过 求解 凸 
二 次 规划 问题 ， 即 软 间隔 最 大 化 问题 (7.32)~(7.34), 得 到 的 分 离 超 平面 为 


wrt =0 (7.35) 
以 及 相应 的 分 类 决策 函数 
f(x) =sign(w* - x + b*) (7.36) 
称 为 线性 支持 向 量 机 。 
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7.2.2 学习 的 对 偶 算 法 
原始 问题 (7.32)~(7.34) 的 对 偶 问题 是 


T N 
min 3 bD 5 AQ; YY; (Li * zj) 一 5 Qi (7.37) 
i=l j=1 i=1 
N 
st. Say; =0 (7.38) 
0<a<C, i=1,2,---,N (7.39) 


原始 最 优化 问题 (7.32)~(7.34) 的 拉 格 朗 日 函数 是 


Iwi? 0556- alutu ett) -Dn (7.40) 


i=1 


Lu, b, 60M) = 5 
其 中 , ai > 0, pi > 0。 
对 偶 问题 是 拉 格 朗 日 函数 的 极 大 极 小 问题 。 首先 求 Lw, b,£, a, u) 对 w,b,& 的 极 


小 , 由 


VuL(w,b,£,a, u) = w — Yairi =0 


i=1 
VoL(w, b,£, a, u) -Dem =0 


a a4 — fi = 0 


得 
N 
w= > oiyizi (7.41) 
N 
aii =0 (7.42) 
i=l 
C-a—pwi=0 (7.43) 


将 式 (7.41)~(7.43) 代入 式 (7.40), 得 


min n L(w, bE, a, u) ASS test Ti ° Tj +Z a: 


dair 1 


再 对 min L(w,b, €, œ, u) 求 a 的 极 大 , 即 得 对 偶 问题 : 
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max 一 了 Ly: Fan (aj + £j) + Ya 7.44) 
a je 1 

N 

s.t. >》 aiyi =0 7.45) 
i=1 
C-ai— ji =0 7.46) 
Qi 之 0 7.47) 
wi 20, *=1,2,---,N 7.48) 


将 对 偶 最 优化 问题 (7.44)~(7.48) 进行 变换 : 利用 等 式 约束 (7.46) 消去 ui AM 
RETER ai 并 将 约束 (7.46)~(7.48) 写成 


0<a<C (7.49) 


再 将 对 目标 函数 求 极 大 转换 为 求 极 小 , 于 是 得 到 对 偶 问题 (7.37)~(7.39)。 
可 以 通过 求解 对 偶 问题 而 得 到 原始 问题 的 解 ， 进而 确定 分 离 超 平面 和 决策 函数 。 
为 此 , 就 可 以 定理 的 形式 叙述 原始 问题 的 最 优 解 和 对 偶 问题 的 最 优 解 的 关系 。 
定理 7.3 设 a* = (aif,Q3,… ay)? 是 对 偶 问题 (7.37)~(7.39) 的 一 个 解 ， 若 存 
在 a* 的 一 个 分 量 of， 0 < ay < Cy 则 原始 问题 (7.32)~(7.34) 的 解 w*,b* 可 按 下 式 
求 得 : 


N 
w= 5 OF YiTi (7.50) 
i=1 
N 
b* = yj- > yio} (zi + 25) (7.51) 


证 明 原始 问题 是 凸 二 次 规划 问题 , 解 满足 KKT 条 件 。 即 得 


N 
VwLl(w*,b",€",0°,u") = w* -Y ožys =0 (7.52) 
i=1 
Vp L(w*, b*, €*,a*, p*) -De yi=0 


VeL(w*,b*,€*,a*,p*) =C —a* —p* =0 
az (yi(w* «a; + 6*) -1+€7) =0 (7.53) 


ures =0 (7.54) 
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yi(w* e r; +b*)-14+6 20 


C, 则 ww(w* » ri +b*)-—1=0. 由 此 即 得 式 (7.51)。 
此 定理 可 知 , 分离 超 平面 可 以 写成 


N 
> afyi(a +2) +b* =0 
i=l 
分 类 决策 函数 可 以 写成 
N 
f(x) = sign (> Qiyi(z » xi) 十 r) 
i=l 
式 (7.56) 为 线性 支持 向 量 机 的 对 偶 形 式 。 


综合 前 面 的 结果 , 有 下 面 的 算法 。 
算法 7.3 (线性 支持 向 量 机 学 习 算法 ) 


1 式 (7.52) 易 知 式 (7.50) R. 再 由 式 (7.53)~(7.54) 可 知 , 车 存在 OF, 0 < at < 


(7.55) 


(7.56) 


输入 : 训练 数据 集 T = {(21, 91), (7z2,y2),…, (ZN,YyN)}， 其 中 ,zi eX =R", 


ypyey= {-1,+1}, t=1,2,"" ,Ns 
输出 : 分 离 超 平面 和 分 类 决策 函数 。 
(1) 选择 惩罚 参数 C > 0, 构造 并 求解 凸 二 次 规划 问题 


N 


] 
min 3 2 2 MOG MEY; (4 * 251) 一 Ya 


i=1 j=1 i=1 
N 
s.t. > oii =0 
i=1 
O<a,<C, i=1,2,---,N 
求 得 最 优 解 a* = (af, a5,--- ,aN)。 
N 
D 计算 w* =Y otyr 


i=1 


选择 a* 的 一 个 分 量 of 适合 条 件 0 < a; <C, 计算 
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N 
b* = yj — > yia} (ai + xj) 
isi 


(3) 求 得 分 离 超 平面 
w*+x+b*=0 


分 类 决策 函数 : 
f(z) = sign(w* + x + 6*) a 


DR (2) 中 , 对 任 一 适合 条 件 0 < ay < C 的 os, 按 式 (7.51) 都 可 求 出 六 ,从 理 
论 上 , 原始 问题 (7.32)~(7.34) 对 的 解 可 能 不 唯一 Bl， 然而 在 实际 应 用 中 , 往往 只 
会 出 现 算法 叙述 的 情况 。 


7.23 ZOS 


在 线性 不 可 分 的 情况 下 ,将 对 偶 问 题 (7.37)~(7.39) 的 解 a* = (ad ao 和 ay)? 
中 对 应 于 at > 0 的 样本 点 (xyi) 的 实例 ri 称 为 支持 向 量 〈 软 间隔 的 支持 向 量 )。 如 
图 7.5 所 示 , 这 时 的 支持 向 量 要 比 线性 可 分 时 的 情况 复杂 一 些 。 图 中 , 分 离 超 平面 由 
实 线 表示 , 间隔 边界 由 虚线 表示 , 正 例 点 由 “o” 表 示 , 负 例 点 由 “x” 表 示 。 图 中 还 标 
出 了 实例 ri 到 间隔 边界 的 距离 SE 


lwll 


图 7.5 ” 软 间隔 的 支持 向 量 


软 间隔 的 支持 向 量 zi 或 者 在 间隔 边界 上 ,或 者 在 间隔 边界 与 分 离 超 平面 之 间 ， 
或 者 在 分 离 超 平面 误 分 一 侧 。 若 a? < C, WE = 0, 支持 向 量 zi 恰好 落 在 间隔 边 
FE: Hap=C,0<& <1, 则 分 类 正确 ， zi 在 间隔 边界 与 分 离 超 平面 之 间 ; 4 
af = 0, & =1, 则 zi 在 分 离 超 平面 上 ; Hap = C, &; > 1, Wa 位 于 分 离 超 平面 误 
分 一 侧 。 
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7.2.4 ARRAN 
对 于 线性 支持 向 量 机 学 习 来 说 , 其 模型 为 分 离 超 平面 w*。z 十 b* = 0 及 决策 函数 
f(a) = sign(w*。z + b*), 其 学 习 策 略为 软 间隔 最 大 化 ,学 习 算法 为 凸 二 次 规划 。 
线性 支持 向 量 机 学 习 还 有 另外 一 种 解释 , 就 是 最 小 化 以 下 目标 函数 : 


Sof = ylw + zi +b), + Mwll? (7.57) 


i=1 


目标 函数 的 第 1 项 是 经 验 损 失 或 经 验 风 险 , 函数 


L(y(w + x+ b)) = [1 — y(w » x + b)]+ (7.58) 


称 为 合 页 损失 函数 (hinge loss function) 。 下 标 “ 十 ”表示 以 下 取 正 值 的 函数 。 


z, z>0 
四 + = (7.59) 


0, z<0 
这 就 是 说 ， 当 样本 点 (ai, yi) 被 正确 分 类 且 函 数 间隔 〈 确 信 度 ) yi(w e ri +b) KF 1 
时 , 损失 是 0, 否则 损失 是 1 一 yi(w。zi +b) 注意 到 在 图 7.5 中 的 实例 点 z4 被 正确 
DR, 但 损失 不 是 0。 目标 函数 的 第 2 项 是 系数 为 和 的 由 的 Le 范 数 , 是 正则 化 项 。 
定理 7.4 线性 支持 向 量 机 原始 最 优化 问题 : 


N 
me zle +o) 6 (7.60) 
st. y(weaj+b)>21-&, i=1,2,---,N (7.61) 
kzi, #=1,2,---,N (7.62) 
等 价 于 最 优化 问题 
N 
mip wt + All? (7.63) 


证 明 可 将 最 优化 问题 (7.63) 写成 问题 (7.60)~(7.62)。 令 


[1 — yi(w ait), =& (7.64) 
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W é > 0, 式 (7.62) 成立。 由 式 (7.64), 4 1—y;(w + a+b) >0 时 ,有 yi(w。 x; +b) = 
1-&; 当 1 一 yi(w* vit+b)<0 时 , & = 0, F yi(w e. zi 十 人 过 1 一 所。 故 式 (7.61) 成 
Z. FÆ w, b, & 满足 约束 条 件 (7.61)~(7.62)。 所 以 最 优化 问题 (7.63) 可 写成 


N 
. S d | 
min 2 + Allwll 


着 取 和 = 55 则 
m Alisa 
we Gl2™ 25i 
与 式 (7.60) 等 价 。 
反之 , 也 可 将 最 优化 问题 (7.60)~(7.62) 表示 成 问题 (7.63)。 


合 页 损失 函数 的 图 形 如 图 7.6 所 示 , 横 轴 是 函数 间隔 y(w。z + b), 纵 轴 是 损失 。 
由 于 函数 形状 像 一 个 合 页 ， 故 名 合 页 损失 函数 。 
图 中 还 画 出 0-1 损失 函数 ， 可 以 认为 它 是 二 类 分 类 问题 的 真正 的 损失 函数 ， 而 
合 页 损失 函数 是 0-1 损失 函数 的 上 界 。 由 于 0-1 损失 函数 不 是 连续 可 导 的 , 直接 优 
化 由 其 构成 的 目标 函数 比较 困难 , 可 以 认为 线性 支持 向 量 机 是 优化 由 0-1 损失 函数 
的 上 界 〈 合 页 损失 函数 ) 构成 的 目标 函数 。 这 时 的 上 界 损失 函数 又 称 为 代理 损失 函 


数 (surrogate loss function) 。 


(0,0) (1,0) ”函数 间隔 y(w-x+25) 


图 7.6 ” 合 页 损失 函数 


图 7.6 中 虚线 显示 的 是 感知 机 的 损失 函数 [ylw e ri 十 中 +。 这 时 ， 当 样本 点 
(ziyi) 被 正确 分 类 时 , 损失 是 0, 否则 损失 是 -yi(w。zi 十 5)。 相 比 之 下 , 合 页 损失 函 
数 不 仅 要 分 类 正确 , 而 且 确 信 度 足够 高 时 损失 才 是 0。 也 就 是 说 , 合 页 损失 函数 对 学 习 
更 高 的 要 求 。 
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对 解 线性 分 类 问题 , 线性 分 类 支持 向 量 机 是 一 种 非常 有 效 的 方法 。 但 是 ， 有 时 分 
类 问题 是 非 线 性 的 ,这 时 可 以 使 用 非 线性 支持 向 量 机 。 本 节令 述 非 线性 支持 向 量 机 ， 
其 主要 特点 是 利用 核 技 巧 (kernel trick) 。 为 此 ， 先 要 介绍 核 技巧 。 核 技巧 不 仅 应 用 于 
支持 向 量 机 , 而 且 应 用 于 其 他 统计 学 习 问 题 。 


7.3.1 核 技巧 


1. 非 线性 分 类 问题 

非 线 性 分 类 问题 是 指 通过 利用 非 线性 模型 才能 很 好 地 进行 分 类 的 问题 。 先 看 一 个 
例子 : 如 图 7.7 ER, 是 一 个 分 类 问题 , 图 中 “。” 表 示 正 实例 点 , “x” 表 示 负 实例 点 。 
由 图 可 见 , 无 法 用 直线 (线性 模型 ) 将 正 负 实例 正确 分 开 , 但 可 以 用 一 条 椭圆 曲线 ( 非 
线性 模型 ) 将 它们 正确 分 开 。 

一 般 来 说 ,对 给 定 的 一 个 训练 数据 集 T = {(21, 41), (72,y2),… , (ZN,yN)}, 其 
中 , 实例 xi 属于 输入 空间 , ri € X =R”, 对 应 的 标记 有 两 类 y; € Y= {-1, +1} i= 
1,2,… ,NV。 如 果 能 用 R” 中 的 一 个 超 曲面 将 正 负 例 正确 分 开 ， 则 称 这 个 问题 为 非 线 
性 可 分 问题 。 


x2) 4 


图 7.7 ” 非 线性 分 类 问题 与 核 技巧 示例 


非 线性 问题 往往 不 好 求解 , 所 以 希望 能 用 解 线性 分 类 问题 的 方法 解决 这 个 问题 。 
所 采取 的 方法 是 进行 一 个 非 线性 变换 , 将 非 线性 问题 变换 为 线性 问题 ， 通过 解 变换 后 
的 线性 问题 的 方法 求解 原来 的 非 线性 问题 。 对 图 7.7 所 示 的 例子 , 通过 变换 , 将 左 图 
中 椭圆 变换 成 右 图 中 的 直线 , 将 非 线性 分 类 问题 变换 为 线性 分 类 问题 。 

BEZH X CR?,2 = (zt,z(D))T € ,新 空间 为 Z C R2,z= (20, 2@)T € 
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Z, 定义 从 原 空间 到 新 空间 的 变换 (映射): 
z = G(x) = ((2)?, (2)?)7 


经 过 变换 z = %(z)， 原 空间 X CR? 变换 为 新 空间 ZC 及 2?， 原 空间 中 的 点 相应 地 变 
换 为 新 空间 中 的 点 ， 原 空间 中 的 椭圆 


Wi(ztD)2 + we(2)? +b =0 


变换 成 为 新 空间 中 的 直线 
wiz) + woz) +b =0 


在 变换 后 的 新 空间 里 , 直线 wy 2) + woz?) +b = 0 可 以 将 变换 后 的 正 负 实例 点 正确 
分 开 。 这 样 ， 原 空间 的 非 线性 可 分 问题 就 变 成 了 新 空间 的 线性 可 分 问题 。 

上 面 的 例子 说 明 , 用 线性 分 类 方法 求解 非 线性 分 类 问题 分 为 两 步 : 首先 使 用 一 个 
变换 将 原 空 间 的 数据 映射 到 新 空间 ; 然后 在 新 空间 里 用 线性 分 类 学 习 方 法 从 训练 数据 
中 学 习 分 类 模型 。 核 技巧 就 属于 这 样 的 方法 。 

核 技 巧 应 用 到 支持 向 量 机 ,其 基本 想法 就 是 通过 一 个 非 线 性 变换 将 输入 空间 ( 欧 
RER” 或 离散 集合 ) 对 应 于 一 个 特征 空间 ( 希 尔 伯 特 空间 H), 使 得 在 输入 空间 
R” 中 的 超 曲面 模型 对 应 于 特征 空间 H 中 的 超 平面 模型 (支持 向 量 机 )。 这 样 , 分 类 问 
题 的 学 习 任务 通过 在 特征 空间 中 求解 线性 支持 向 量 机 就 可 以 完成 。 

2. 核子 数 的 定义 

定义 7.6( 核 函数 ) 设 获 是 输入 空间 ( 欧 氏 空间 R 的 子 集 或 离散 集合 ) 又 设 
H 为 特征 空间 ( 希 尔 伯 特 空间 ) 如 果 存 在 一 个 从 光 到 KH 的 映射 


olz): XH (7.65) 
使 得 对 所 有 z,z E X, BA K(2,z) 满足 条 件 
K(x, z) = (2) » $(z) (7.66) 


则 称 有 (Zz,z) ABA, olr) 为 映射 函数 ， 式 中 ole). olz) A d(x) P ol) HAR. 

核 技巧 的 想法 是 , 在 学 习 与 预测 中 只 定义 核 函 数 K(x, z), 而 不 显 式 地 定义 映射 函 
Ho. 通常 , 直接 计算 K(z,z) 比较 容易 , 而 通过 d(x) 和 olz) 计算 K(z,z) 并 不 容易 。 
注意 , o 是 输入 空间 Rn 到 特征 空间 H 的 映射 , 特征 空间 H 一 般 是 高 维 的 , 甚至 是 无 
穷 维 的 。 可 以 看 到 , 对 于 给 定 的 核 KK(z,z), 特征 空间 多 和 映射 函数 9 的 取 法 并 不 唯 
一 , 可 以 取 不 同 的 特征 空间 , 即便 是 在 同一 特征 空间 里 也 可 以 取 不 同 的 映射 。 
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下 面 举 一 个 简单 的 例子 来 说 明 核 函 数 和 映射 函数 的 关系 。 

例 7.3 假设 输入 空间 是 R?, 核 函 数 是 K(x, z) = (7。z)?, 试 找 出 其 相关 的 特征 
空间 H 和 映射 d(x) : R? 一 XH。 

解 取 特 征 空间 1 = RS, 记 z = (eX, 2)T, z= (2, 2@)T, 由 于 


(a © 2)? = (Dz) 4 gz)? = (z(DzGD)2 4 20D 十 (z(2)z(2))2 


所 以 可 以 取 映 射 
olz) = (2 7, V21, (z)2)T 


容易 验证 d(x) « (z) = (a + z)? = K(z,z)。 
TRH =R? 以 及 
g(z) = zí (1)? — (2)? 229s, (20)? + (w@))?)7 
同样 有 (2) « o(z) = (a + z)? = K(x, z)o 
JEDI H = 及 4 和 


d(x) = (2)? rD, cr), (z(2))2)T a 


3. 核 技巧 在 支持 向 量 机 中 的 应 用 

我 们 注意 到 在 线性 支持 向 量 机 的 对 偶 问 题 中 , 无 论 是 目标 函数 还 是 决策 函数 〈 分 离 
超 平面 ) 都 只 涉及 输入 实例 与 实例 之 间 的 内 积 。 在 对 偶 问 题 的 目标 函数 (7.37) 中 的 内 积 
xi e sj 可 以 用 核 函 数 K (zi, 2j) = olx) < olx) 来 代替 。 此 时 对 偶 问题 的 目标 函数 成 为 


= ia wy) = (7.67) 
i=1 j=1 i=1 
同样 ， 分 类 决策 函数 中 的 内 积 也 可 以 用 核 函数 代替 ， 而 分 类 决策 函数 式 成 为 


Ns 
f(a) = sign 区 afaig(zi)。%(z) + r) 


i=1 


Ns 
= sign = aiyiK (zi, £) + r) (7.68) 


i=1 


这 等 价 于 经 过 映射 函数 % 将 原来 的 输入 空间 变换 到 一 个 新 的 特征 空间 , 将 输入 空 
间 中 的 内 积 zi o rj 变换 为 特征 空间 中 的 内 积 %zi)。9%(zi)， 在 新 的 特征 空间 里 从 训 
练 样本 中 学 习 线性 支持 向 量 机 。 当 映射 函数 是 非 线 性 函数 时 , 学 习 到 的 含有 核 函数 的 
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支持 向 量 机 是 非 线性 分 类 模型 。 

也 就 是 说 , 在 核 函数 K(x, z) 给 定 的 条 件 下 , 可 以 利用 解 线性 分 类 问题 的 方法 求 
解 非 线 性 分 类 问题 的 支持 向 量 机 。 学 习 是 隐 式 地 在 特征 空间 进行 的 , 不 需要 显 式 地 定 
义 特征 空间 和 映射 函数 。 这 样 的 技巧 称 为 核 技巧 , 它 是 巧妙 地 利用 线性 分 类 学 习 方 法 
与 核 函 数 解决 非 线 性 问题 的 技术 。 在 实际 应 用 中 , 往往 依赖 领域 知识 直接 选择 核 函 数 ， 


T 


7.3.2 JER 

已 知 映射 函数 o, 可 以 通过 %(z) 和 olz) 的 内 积 求 得 核 函 数 玉 (z, z)。 不 用 构造 映 
H olx) 能 否 直接 判断 一 个 给 定 的 函数 K (2,2) 是 不 是 核 函 数 ? 或 者 说 , 函数 K (T, z) 
满足 什么 条 件 才能 成 为 核 函 数 ? 

本 节令 述 正定 核 的 充 要 条 件 。 通 常 所 说 的 核 函 数 就 是 正定 核 函 数 (positive 
definite kernel function) 。 为 证 明 此 定理 先 介 绍 有 关 的 预备 知识 。 

假设 K(z,z) EENE X x X 上 的 对 称 函数 ， 并 且 对 任意 的 £1, 22, ,zm E 
X, K(a,z) 关于 11,22, ,zm 的 Gram 矩阵 是 半 正 定 的 。 可 以 依据 函数 K(x, 2), 构 
成 一 个 希 尔 伯 特 空间 (Hilbert space) ， 其 步骤 是 : 首先 定义 映射 o 并 构成 向 量 空间 
S; 然后 在 S 上 定义 内 积 构成 内 积 空间 ; 最 后 将 S 完备 化 构成 希 尔 伯 特 空间 。 

1. 定义 映射 , 构成 向 量 空间 S 

先 定义 映射 

o:2— K(+,2) (7.69) 


根据 这 一 映射 , 对 任意 ri E X, ai ER, i = 1,2,… ,m, 定义 线性 组 合 


j(.)=》 aiK( ,zi) (7.70) 
#=1 


考虑 由 线性 组 合 为 元 素 的 集合 S。 由 于 集合 S 对 加 法 和 数 乘 运算 是 封闭 的 , 所 以 S 构 
成 一 个 向 量 空间 。 

2. 在 S 上 定义 内 积 , 使 其 成 为 内 积 空间 

ES 上 定义 一 个 运算 *: 对 任意 fg ES, 


f(+) =o aiK( ,zi) (7.71) 


4=1 


l 
He )= BK e,z) (7.72) 
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定义 运算 * ， 
jxg 一 >》 >》 18; K (zizi) (7.73) 

i=1 j=1 

证 明 运 算 * 是 空间 S 的 内 积 。 为 此 要 证 : 

A) (cf)*g=c(f*g)cER 7.74) 
(2) (f+g)*h=fxhtg*h hes 7.75) 
(3) fag=g*f 7.76) 
(A) fx f >0, 7.77) 
fxf=0ef=0 7.78) 
Je, (1)~(3) 由 式 (7.70)~ 式 (7.72) 及 K(x, z) 的 对 称 性 容易 得 到 。 现 证 (4) 之 


式 (7.77)。 由 式 (7.70) 及 式 (7.73) 可 得 : 
ffe > aja; K (zi, £j) 
ij=1 
由 Gram 和 矩阵 的 半 正 定性 知 上 式 右 端 非 负 , BY f * f > 0. 
再 证 (4) 之 式 (7.78)。 充 分 性 显然 。 为 证 必要 性 ， 首 先 证 明 不 等 式 : 


|f * gl? < (F * f)(g*9) (7.79) 
BHGES AER, M f+rAg ES, FH, 
(F +Ag) *(f +Ag) 20 
f*f+2X(f =g) +A?’ (gg) > 0 
其 左 端 是 和 的 二 次 三 项 式 , 非 负 , 其 判别 式 小 于 等 于 0, 即 
(fx*g —(f* f)(g*9) <0 
FÆR (7.79) 得 证 。 现 证 若 fx /= 0, 则 f=0。 事实 上 , # 


1() = > oaK( za 


则 按 运算 * 的 定义 式 (7.73), 对 任意 的 ze X, 有 
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K(+ ,)* f =) aK (2,21) = f(z) 
f(x)? = |K(+,2) « fI? (7.80) 
由 式 (7.79) 和 式 (7.77) 有 
|K(+,a)* fh <(K(+,a)*K(+,2))(f*f) 
= K(z,7)(f * f) 


由 式 (7.80) 有 
[f(a)? < K(a,2)(f * f) 


此 式 表明 , 4 f f =O 时 , 对 任意 的 z 都 有 |f(z)| = 0。 
至 此 , 证 明了 * 为 向 量 空间 S 的 内 积 。 赋 予 内 积 的 向 量 空间 为 内 积 空间 。 因此 5 
是 一 个 内 积 空间 。 既 然 * 为 S 的 内 积 运算 , 那么 仍然 用 。 表示, 即 若 


= >》 aiK( zi， g( -DAKI e , 2) 
i=1 


则 m 1 
f.g=> Yo oiBiK (xj, zj) (7.81) 


j=l 


= 


$5 


3. 将 内 积 空间 S 完备 化 为 希 尔 伯 特 空间 
现在 将 内 积 空间 S 完备 化 。 由 式 (7.81) 定义 的 内 积 可 以 得 到 范 数 


fll =VF f (7.82) 
因此 , S 是 一 个 赋 范 向 量 空间 。 根 据 泛 函 分 析 理 论 , 对 于 不 完备 的 赋 范 向 量 空间 S, 一 
定 可 以 使 之 完备 化 , 得 到 完备 的 赋 范 向 量 空间 1t。 一 个 内 积 空间 ， 当 作为 一 个 赋 范 向 
量 空间 是 完备 的 时 候 , 就 是 希 尔 伯 特 空间 。 这样 , 就 得 到 了 希 尔 伯 特 空间 He 
这 一 希 尔 伯 特 空间 H 称 为 再 生 核 希 尔 伯 特 空间 (reproducing kernel Hilbert 
space, RKHS) 。 这 是 由 于 核 K 具有 再 生性 , 即 满足 


K(+,2)+ f= f(z) (7.83) 


K(+,2)* K(+,z) = K(z,z) (7.84) 


称 为 再 生 核 。 
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4. 正定 核 的 充 要 条 件 


定理 7.5 (正定 核 的 充 要 条 件 ) 


RK: XKX +R 是 对 称 函 数 , 则 K(x,z) AE 


LK DRY REE RIVER Ti € X, i 二 1,2,… ,m，K(z,z) 对 应 的 Gram 矩阵 : 


RF ERE, 


K = [K(zi, 7;)] 


(7.85) 


mxm 


证 明 必要 性 。 HH K(x, 2) EX x XY 上 的 正定 核 , 所 以 存在 从 到 希 尔 伯 特 


空间 H 的 映射 四， 


对 任意 C1, Chy s 


使 得 


天 (z,z) = (x) » 9(z) 
于 是 , 对 任意 zl, zz … Em 构造 天 (z,z) 关于 11,22, ,zm 的 Gram 矩阵 


[Kij]mxm 


,cm ER, 有 


= [K (zi, zj)]mxm 


> cic; K (xi, £j) = 5D cic; (P(xi) » BT;)) 


ij=1 


表明 K(x,z) 关于 21, £2, 


ij=1 


= (Zas) 。 (Fasen) 


pe co(xi) 


„Em 的 Gram 和 矩阵 是 半 正 定 的 。 


2 
>0 


充分 性 。 已 知 对 称 函 数 K(x,z) 对 任意 11,22, tm E X, K(x,z) 关于 
Gram 矩阵 是 半 正 定 的 。 根据 前 面 的 结果 ，, 对 给 定 的 KK(z,z), 可 以 
KDEA X 到 某 个 希 尔 伯 特 空间 H 的 映射 : 


o:2—> K(+,2z) (7.86) 


LiT, Em 的 


由 式 (7.83) 可 知 ， 
并 且 


由 式 (7.86) 即 得 


K(+,2)+ f = f(x) 


K(+,2)+K(+,z) = K(z,z) 


K( 


表明 K(z,z) EX xX 上 的 核 函 数 。 


定理 给 出 了 1 


E 定 核 的 充 要 条 件 ， 因 


1,2) = P(x) + (2) 


此 可 以 作为 正定 核 , 即 核 函 数 的 另 一 定义 。 
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定义 7.7 (正定 核 的 等 价 定义 ) 设计 CR",K(z,z) ZLE X x X 上 的 对 称 
函数 ， 如 果 对 任意 Ti € 二 ,1 二 1,2,… ,m，K(z,z) 对 应 的 Gram 矩阵 


K = [K(xi,7;)] (7.87) 


mxm 


AFERZE, MAR K(a,z) 是 正定 核 。 

这 一 定义 在 构造 核 函数 时 很 有 用 。 但 对 于 一 个 具体 函数 K(x, 2) 来 说 , 检验 它 是 
和 否 为 正定 核 函 数 并 不 容易 ， 因 为 要 求 对 任意 有 限 输 入 集 {zl,za,…… Em} 验证 天 对 
应 的 Gram 矩阵 是 否 为 半 正 定 的 。 在 实际 问题 中 往往 应 用 已 有 的 核 函 数 。 另外， 由 
Mercer 定理 可 以 得 到 Mercer 核 (Mercer kernel) 0 ,正定 核 比 Mercer 核 更 具 一 般 
性 。 下 面 介绍 一 些 常 用 的 核 函数 。 


7.3.3 ARMA 
1. 多 项 式 核 贺 数 (polynomial kernel function) 


K(a,z) = (Z。z 十 1)2 (7.88) 


对 应 的 支持 向 量 机 是 一 个 p 次 多 项 式 分 类 器 。 在 此 情形 下 , 分 类 决策 函数 成 为 


Ns 
f(x) = sign (3: ažyi(ti eo +1)? + r) (7.89) 


i=l 
2. 高 斯 核 圆 数 (Gaussian kernel function) 
lz — 2||? 
K(a,z) = exp (Se (7.90) 


对 应 的 支持 向 量 机 是 高 斯 径 向 基 函 数 (radial basis function) 分 类 器 。 在 此 情形 下 , 分 


L lz — zil? 
f(z) = sign 区 a7 yi exp (-S=") + r) (7.91) 
3. FATBABWA (string kernel function) 

核 函 数 不 仅 可 以 定义 在 欧 氏 空间 上 , 还 可 以 定义 在 离散 数据 的 集合 上 。 比 如 , 字 


符 串 核 是 定义 在 字符 串 集合 上 的 核 函 数 。 字符 串 核 函数 在 文本 分 类 、 信 息 检索 、 生 物 
信息 学 等 方面 都 有 应 用 。 
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考虑 一 个 有 限 字符 表 De 字符 串 s EM DS 中 取出 的 有 限 个 字符 的 序列 , 包括 空 
PAT. PFE s 的 长 度 用 |s| 表示 , 它 的 元 素 记 作 s(1)s(2) …'s(|s|)。 两 个 字符 串 s 
Alt 的 连接 记 作 st。 所 有 长 度 为 n 的 字符 串 的 集合 记 作 呈 "， 所 有 字符 串 的 集合 记 作 


at = (J =". 
n=0 


考虑 字符 串 s 的 子 串 u。 给 定 一 个 指标 序列 i = (it ty)» 1 Si < 
i2 < … < ih < |sl，s 的 子 串 定义 为 wu = s(i) = s( 计 )s(i2)…s(ijul)， 其 长 度 记 作 
Ui) = ty 一 五 十 1。 如 果 宇 是 连续 的 , 则 1(i) = |ul; 否则 , 1(i) > Jule 

假设 S 是 长 度 大 于 或 等 于 n 的 字符 串 的 集合 , s 是 S 的 元 素 。 现 在 建立 字符 串 集 
E S 到 特征 空间 Hn = R2” 的 映射 Bn(s)。 R2” 表 示 定 义 在 D 上 的 实数 空间 ,其 每 
一 维 对 应 一 个 字符 串 we DO”, 映射 nls) 将 字符 串 s 对 应 于 空间 R2” 的 一 个 向 量 ， 
HE u 维 上 的 取 值 为 


[on(s)Ju = > xo (7.92) 
i:s(i)=u 

这 里 , 0 < 入 < 1 是 一 个 衰减 参数 , 1(i) 表示 字符 串 i 的 长 度 , 求 和 在 s 中 所 有 与 4 相 
同 的 子 串 上 进行 。 

例如 , BEI 为 英文 字符 集 , n 为 3，S 为 长 度 大 于 或 等 于 3 的 字符 串 的 集 
合 。 考 虑 将 字符 集 S 映射 到 特征 空间 Hy. Hz 的 一 维 对 应 于 字符 串 asd。 这 时 ， 
字符 串 “Nasdaq” 与 “lass das” 在 这 一 维 上 的 值 分 别 是 [ba(Nasdaq)]asd = A° 和 
[ba(lassDdas)jasd = 2X5 (O 为 空格 )。 在 第 1 个 字符 串 里 ，asd 是 连续 的 子 串 。 在 第 2 
个 字符 串 里 ，asd EKEN 5 的 不 连续 子 串 ， 共 出 现 2 次 。 
两 个 字符 串 s 和 二 上 的 字符 串 核 函 数 是 基于 映射 Op 的 特征 空间 中 的 内 积 : 


kn(s,t) = 2 nulb Olu 
uer 
=) 5 XOW (7.93) 
uEZnm (i j):s(i)=t(j)=u 


字符 串 核 函数 kals, t) 给 出 了 字符 串 s 和 上 中 长 度 等 于 的 所 有 子 串 组 成 的 特征 向 量 
的 余弦 相似 度 (cosine similarity) 。 直 观 上 , 两 个 字符 串 相同 的 子 串 越 多 , 它们 就 越 相 
Wh, 字符 串 核 函数 的 值 就 越 大 。 字符 串 核 函数 可 以 由 动态 规划 快速 地 计算 。 


7.3.4 ， 非 线性 支持 向 量 分 类 机 


如 上 记述 , 利用 核 技巧 , 可 以 将 线性 分 类 的 学 习 方 法 应 用 到 非 线 性 分 类 问题 中 去 。 
将 线性 支持 向 量 机 扩展 到 非 线 性 支持 向 量 机 ， 只 需 将 线性 支持 向 量 机 对 偶 形 式 中 的 内 
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积 换 成 核 函 数 。 
定义 7.8( 非 线性 支持 向 量 机 ) ”从 非 线 性 分 类 训练 集 , 通过 核 函 数 与 软 间 隔 最 大 
化 , 或 凸 二 次 规划 (7.95)~(7.97)， 学习 得 到 的 分 类 决策 函数 


N 
f(x) = sign 区 aly K (x, xi) + r) (7.94) 
i=1 

称 为 非 线 性 支持 向 量 机 ，K (x,z) 是 正定 核 函 数 。 

下 面 叙述 非 线 性 支持 向 量 机 学 习 算法 。 

算法 7.4 ( 非 线性 支持 向 量 机 学 习 算 法 ) 

输入 : 训练 数据 集 T={(z1,91), (7z2,y2),…, (ZN,yN)}, 其 中 meE 光 = 及 "WE 
Y= {-1, +1}, 4=1,2,---, Ns 

输出 : 分 类 决策 函数 。 

(1) 选取 适当 的 核 函数 K (a, z) 和 适当 的 参数 C, 构造 并 求解 最 优化 问题 


N N N 
‘ 1 
min 了 > b> OO YY K (xi, £) 一 > Qi (7.95) 
i=1 j=1 i=1 
N 
st. Yaiyi=0 (7.96) 
i=1 
O<a,<C, i=1,2,---,N (7.97) 


求 得 最 优 解 a* = (aj, oa 和 ah) T 
(2) 选择 a* 的 一 个 正 分 量 0 < a} < C, 计算 


N 
b* = yj- Do af yiK (ai, zj) 
=1 
(3) 构造 决策 函数 : 


N 
f(x) = sign (> ažyiK (zx, xi) 十 r) a 


i=1 


LE 


K (a, z) 是 正定 核 函 数 时 , 问题 (7.95)~(7.97) 是 凸 二 次 规划 问题 , 解 是 存在 的 。 


7.4 ”序列 最 小 最 优化 算法 


本 节 讨 论 支 持 向 量 机 学 习 的 实现 问题 。 我 们 知道 , 支持 向 量 机 的 学 习 问 题 可 以 
形式 化 为 求解 凸 二 次 规划 问题 。 这 样 的 凸 二 次 规划 问题 具有 全 局 最 优 解 ,， 并 且 有 许 
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多 最 优化 算法 可 以 用 于 这 一 问题 的 求解 。 但 是 当 训 练 样本 容量 很 大 时 ， 这 些 算 法 往 

往 变 得 非常 低 效 ， 以 致 无 法 使 用 。 所 以 ,如 何 高 效 地 实现 支持 向 量 机 学 习 就 成 为 一 

个 重要 的 问题 。 目 前 人 们 已 提出 许多 快速 实现 算法 。 本 节 讲 述 其 中 的 序列 最 小 最 优 

化 (sequential minimal optimization, SMO) 算法 , 这 种 算法 1998 年 由 Platt 提出 。 
SMO 算法 要 解 如 下 凸 二 次 规划 的 对 偶 问题 : 


NN N 
1 
min 3 B OiQ yiy; K (zi, z4) — La (7.98) 
mE = 
s.t. Tien =0 (7.99) 
suL, =h N (7.100) 


在 这 个 问题 中 , 变量 是 拉 格 朗 日 乘 子 , 一 个 变量 a; 对 应 于 一 个 样本 点 (zi, yi); 变量 的 
总 数 等 于 训练 样本 容量 N。 

SMO 算法 是 一 种 启发 式 算法 , 其 基本 思路 是 : 如 果 所 有 变量 的 解 都 满足 此 最 优化 
问题 的 KKT 条 件 (Karush-Kuhn-Tucker conditions) ， 那 么 这 个 最 优化 问题 的 解 就 
得 到 了 。 因 为 KKT 条 件 是 该 最 优化 问题 的 充分 必要 条 件 。 否则 ,选择 两 个 变量 , 固 
定 其 他 变量 , 针对 这 两 个 变量 构建 一 个 二 次 规划 问题 。 这 个 二 次 规划 问题 关于 这 两 个 
变量 的 解 应 该 更 接近 原始 二 次 规划 问题 的 解 ， 因为 这 会 使 得 原始 二 次 规划 问题 的 目标 
函数 值 变 得 更 小 。 重 要 的 是 , 这 时 子 问 题 可 以 通过 解析 方法 求解 ,这样 就 可 以 大 大 提 

高 整个 算法 的 计算 速度 。 子 问题 有 两 个 变量 , 一 个 是 违反 KKT 条 件 最 严重 的 那 一 个 ， 
另 一 个 由 约束 条 件 自动 确定 。 如 此 , SMO 算法 将 原 问 题 不 断 分 解 为 子 问题 并 对 子 问 
题 求解 ， 进 而 达到 求解 原 问题 的 目的 。 
注意 , 子 问题 的 两 个 变量 中 只 有 一 个 是 自由 变量 , 假设 1, ag 为 两 个 变量 ， 
定 , 那么 由 等 式 约束 (7.99) 可 知 


N 
a= -yi Vai 
i=2 


WA a 确定 , 那么 ai 也 随 之 确定 。 所 以 子 问 题 中 同时 更 新 两 个 变量 。 
整个 SMO 算法 包括 两 个 部 分 : 求解 两 个 变量 二 次 规划 的 解析 方法 和 选择 变量 的 
启发 式 方法 。 


13, Ql4,°** QAN 


7.4.1 两 个 变量 二 次 规划 的 求解 方法 
不 失 一 般 性 , 假设 选择 的 两 个 变量 是 al, aa， 其 他 变量 ai(i = 3,4,---,N) 是 固 
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定 的 。 于 是 SMO 的 最 优化 问题 (7.98)~(7.100) 的 子 问题 可 以 写成 : 


1 1 
min W (a1, a2) Kua? + -Ka + yiy2K 20102 一 
æl, a2 2 2 


N N 
(al + a2) + y101 > iaiKin + Y2Q2 5 YiaiKi2 (7.101) 
x i=3 i=3 
s.t. Q1Y1 十 aa2ya = — X viai =e (7.102) 
i=3 
0<a;<C, i=1,2 (7.103) 


Hh, Ki; = K(ai,2,),i,9 =1,2,---,N, 是 常数 , 目标 函数 式 (7.101) 中 省 略 了 不 
FF on, as 的 常数 项 。 

为 了 求解 两 个 变量 的 二 次 规划 问题 (7.101)~(7.103), 首先 分 析 约 束 条 件 , 然后 在 
此 约束 条 件 下 求 极 小 。 

由 于 只 有 两 个 变量 (al, a2), 约束 可 以 用 二 维 空间 中 的 图 形 表 示 (如 图 7.8 所 示 ) 。 


=C 
SS 
J \ 
a=0 7 a,=C N 
到 
o=0 
YAY, 之 0 一 2 下 y= A+ =k 


(a) (b) 
图 7.8 ”二 变量 优化 问题 图 示 


不 等 式 约束 (7.103) 使 得 (01,02) 在 盒子 [0,C] x [0,C] A, ERAR (7.102) 使 
(aa aa) 在 平行 于 盒子 [0, C] x [0, C] 的 对 角 线 的 直线 上 。 因 此 要 求 的 是 目标 函数 在 一 
条 平行 于 对 角 线 的 线段 上 的 最 优 值 。 这 使 得 两 个 变量 的 最 优化 问题 成 为 实质 上 的 单 
变量 的 最 优化 问题 , 不 妨 考虑 为 变量 az 的 最 优化 问题 。 
自 设 问题 (7.101)~(7.103) 的 初始 可 行 解 为 aid,a3d, 最 优 解 为 a¥ew, anew, 并 且 
假设 在 沿 着 约束 方向 未 经 剪辑 时 az 的 最 优 解 为 ag 。 
于 ade’ 需 满足 不 等 式 约束 (7.103), 所 以 最 优 值 agr 的 取 值 范围 必须 满足 条 件 


Lan 


其 中 , L5 五 是 a3ew 所 在 的 对 角 线 段 端点 的 界 。 如果 y A yo CHI 7.8(a) Stas), W 


L= max(0,a3gd — a9), H = min(C,C +a -oa9ld) 
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WR yı = yo (如 图 7.8(b) 所 示 )， 则 


L = max(0,a$'4 +a% — C), H =min(C,a$'4 + a9!4) 


下 面 , 首先 求 沿 着 约束 方向 未 经 剪辑 即 未 考虑 不 等 式 约束 (7.103) 时 ao 的 最 优 解 
ARMS. 然后 再 求 剪 辑 后 aa 的 解 agew 。 我 们 用 定理 来 叙述 这 个 结果 。 为 了 叙述 简 
A, id 


g(x) = Sank (zi, £) + (7.104) 
ci 
N 
E; = g(7i) — yi = (Sekt + \ -yi i=1,2 (7.105) 
j=l 


当 i=1,2 时 , Ei 为 函数 g(z) 对 输入 zi 的 预测 值 与 真实 输出 yi 之 差 。 
定理 7.6 最 优化 问题 (7.101)~(7.103) 沿 着 约束 方向 未 经 剪辑 时 的 解 是 


aaewane = gold + ¥2(Fi — Fo) (7.106) 
7 
其 中 > 
n= Ku + Koo — 2K12 = || (x1) — O(2)|)? (7.107) 
D(x) 是 输入 空间 到 特征 空间 的 映射 ， Ey, i= 1,2, HA (7.105) 给 出 。 
经 剪辑 后 as 的 解 是 
H oi > H 
, 2 
aN = Cn $ < ar < H (7.108) 
T pp TAn: P E 
9 2 
apew RAF agw 是 
alew = af!4 + yryo(ag!4 一 agew) (7.109) 


证 明 引进 记号 


N 2 
vi = > ajyjK (ai, 23) = g(7i) 一 > ayy; K (ai, 25) —b, i=1,2 
j=3 j=l 
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目标 函数 可 写成 


1 1 
W(a1, a2) zuat + 3 K2203 yiy2 Ki2Q102 一 


(a1 + a2) + YiviQ1 + yorra2 (7.110) 
H ayı =s- ay Ry? =1, 可 将 aa 表示 为 
ad = (ç — y2a2)yı 
代入 式 (7.110), BIA az 的 函数 的 目标 函数 : 


1 1 
W(a2) = aKunls — Q2y2)? + 3 K2203 + yok 12(s — a2y2)a2— 


(s — azy2)yı — a2 + v1 (S — aye) + yov2a2 


对 ag 求 导数 
ow 


Jas Ky102 + Ko202 — 2K1202 
Q2 


玫 11sya + Kiasye + yry2 — 1 — vrye + yave 
令 其 为 0, 得 到 


(Kir + Koo — 2K12)a2 = y2(y2 — yi + SKi — SK12 + v1 — v2) 


2 
= y2 h — yı +SsKı1ı — SK12 + (e = X yap Kay = ) = 


j=1 


(® 一 yas Ka = | 


jal 
K s= ady + agltys RA, 得 到 


(Kii + Ko2-2K 12) 0g = yo((Ki1 + Ko2—2K 12) 08!4yo4+-y2-yi +9(#1) —9(z2)) 
(Ki1+K22—2K12)a9 + yo(Ey — E2) 


K n= Ku + Kon 一 2K12 RA, 于 是 得 到 


agone = agd + 一 一 E2) 
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要 使 其 满足 不 等 式 约束 必须 将 其 限制 在 区 间 LL, H] 内 ， 从 而 得 到 a3ew 的 表达 
IÑ (7.108)。 由 等 式 约束 (7.102), 得 到 arw 的 表达 式 (7.109)。 于 是 得 到 最 优化 问题 
(7.101)~(7.103) 的 解 (afew ,agew )。 国 


7.4.2 ”变量 的 选择 方法 


SMO 算法 在 每 个 子 问题 中 选择 两 个 变量 优化 , 其 中 至 少 一 个 变量 是 违反 KKT 条 
件 的 。 

1. 第 1 个 变量 的 选择 

SMO 称 选择 第 1 个 变量 的 过 程 为 外 层 循环 。 外 层 循环 在 训练 样本 中 选取 违反 
KKT 条 件 最 严重 的 样本 点 , 并 将 其 对 应 的 变量 作为 第 1 个 变量 ,。 具体 地 , 检验 训练 样 
本 点 (ai, yi) 是 否 满足 KKT 条 件 , 即 


Qi=0 S yig(xi) > 1 (7.111) 
0<a<CSyg(ri) =1 (7.112) 
ai =CSyg(zi) <1 (7.113) 


N 
其 中 , g(zi) = So ayy; K (ai, zj) + be 
j= 


该 检验 是 在 e 范围 内 进行 的 。 在 检验 过 程 中 ,外 层 循环 首先 遍历 所 有 满足 条 件 
0 < am < C 的 样本 点 , 即 在 间隔 边界 上 的 支持 向 量 点 , 检验 它们 是 否 满足 KKT 条 件 。 
如 果 这 些 样本 点 都 满足 KKT 条 件 , 那么 遍历 整个 训练 集 , 检验 它们 是 否 满足 KKT 
条 件 。 

2. 第 2 个 变量 的 选择 

SMO 称 选 择 第 2 个 变量 的 过 程 为 内 层 循环 。 假设 在 外 层 循环 中 已 经 找到 第 1 个 
变量 a1, 现在 要 在 内 层 循环 中 找 第 2 个 变量 az。 第 2 个 变量 选择 的 标准 是 希望 能 使 
as 有 足够 大 的 变化 。 
由 式 (7.106) 和 式 (7.108) 可 知 ，a3ew 是 依赖 于 |B 一 Bz| 的 , 为 了 加 快 计 算 速 
E, 一 种 简单 的 做 法 是 选择 aa， 使 其 对 应 的 |B) 一 E 最 大 。 因 为 ai GE, Ey 也 确 
定 了 。 如 果 A, 是 正 的 , 那么 选择 最 小 的 E; 作为 Bo: 如 果 是 负 的 , 那么 选择 最 大 
的 E; 作为 B2。 为 了 节省 计算 时 间 , 将 所 有 Ei 值 保存 在 一 个 列表 中 。 
在 特殊 情况 下 ， 如 果 内 层 循 环 通过 以 上 方法 选择 的 a 不 能 使 目标 函数 有 足够 的 
F, 那么 采用 以 下 启发 式 规 则 继续 选择 wz。 遍历 在 间隔 边界 上 的 支持 向 量 点 ,依次 
将 其 对 应 的 变量 作为 a 试用, 直到 目标 函数 有 足够 的 下 降 。 若 找 不 到 合适 的 qs， AS 
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么 遍历 训练 数据 集 ; 若 仍 找 不 到 合适 的 a 则 放弃 第 1 个 al, 再 通过 外 层 循环 寻求 另 
外 的 aa 。 

3. HARE b 和 差 值 E; 

在 每 次 完成 两 个 变量 的 优化 后 ,都 要 重新 计算 闵 值 b。 当 0 < ate < C 时 , 由 
KKT 条 件 (7.112) 可 知 : 


N 
> aiyiKa +b=y 
i=1 
于 是 ， 
N 
oY =y- > oiyiKa — at "y Kay — a2 y2 Kor (7.114) 
i=3 
由 By 的 定义 式 (7.105) 有 
N 
El = > oiyiKa + of yK + oad yK +b% — yı 
i=3 


式 (7.114) 的 前 两 项 可 写成 : 


N 
y- J aiyiKa = -E1 + af y Ki +a yK +b 
i=3 


代入 式 (7.114), 可 得 


brew = -E = Kun(ay™ = ag) _ yoK a1 (ajs = agd) $ Dold (7.115) 


同样 , 如 果 0 < ab’ <O, WA, 


bew = — By — yy Kio (at — ai) — yo Ko0(ake™ 一 ald) 十 bold (7.116) 


WR ate a3ew 同时 满足 条 件 0 < apew < C, i = 1,2, 那么 bew = byw, WR 
aew,agew 是 0 或 者 C, 那么 好 sw Fl BBY 以 及 它们 之 间 的 数 都 是 符合 KKT 条 件 的 
闵 值 , 这 时 选择 它们 的 中 点 作为 bmew 。 
在 每 次 完成 两 个 变量 的 优化 之 后 , 还 必须 更 新 对 应 的 E; 值 , 并 将 它们 保存 在 列 
KP. Ei 值 的 更 新 要 用 到 brew 值 , 以 及 所 有 支持 向 量 对 应 的 aj: 


ER = yoK (zi, 23) +O" — yi (7:117) 
S 


其 中 , 5 是 所 有 支持 向 量 zj 的 集合 。 
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7.4.3 SMO 算法 


算法 7.5 (SMO 算法 ) 

输入 : 训练 数据 集 卫 = {(21,y1), (v2, y2),--- (tn, yn)}> 其 中 , a eX =R", 
yi E€ Y ={-1,4+1}, i=1,2,---,N, 精度 e; 

输出 : 近似 解 &。 

(1) 取 初 值 a = 0, +k=0; 

(2) 选取 优化 变量 af5,a 多 ,解析 求解 两 个 变量 的 最 优化 问题 (7.101)~(7.103)， 
KERR alt a), 更 新 a Halt), 

(3) 若 在 精度 = 范围 内 满足 停机 条 件 


21, {zilai = 0} 
{zil0 <a < C} 
{z:la; = C} 


其 中 ， 
g(zi) = 》 agyjK (a;,21) +b 
j=l 


WEE (4); AMS k=k+1, 转 (2); 
(4) W â =at), 国 


本 章 概 要 
1. 支持 向 量 机 最 简单 的 情况 是 线性 可 分 支持 向 量 机 ， 或 硬 间隔 支持 向 量 机 。 构建 


它 的 条 件 是 训练 数据 线性 可 分 。 其 学 习 策 略 是 最 大 间隔 法 。 可 以 表示 为 凸 二 次 规划 问 
题 ， 其 原始 最 优化 问题 为 


min 


wb 


s.t. 


5 lol? 


yi(w » zi +b) -130, 


4=1,2,--- 


,N 
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求 得 最 优化 问题 的 解 为 wt, b*, 得 到 线性 可 分 支持 向 量 机 , 分 离 超 平面 是 : 
w*+r+b*=0 
分 类 决策 函数 是 : 
f(a) =sign(w* «2 + 6°) 


最 大 间隔 法 中 ,函数 间隔 与 几何 间隔 是 重要 的 概念 。 


线性 可 分 支持 向 量 机 的 最 优 解 存 在 且 唯一 。 位 于 间隔 边界 上 的 实例 点 为 支持 向 
量 。 最 优 分 离 超 平面 由 支持 向 量 完全 决定 。 


二 次 规划 问题 的 对 偶 问 题 是 : 
1 N 
min 3 > D iQ YYj (Ti Tj) 一 Da 
i=1 j=1 i=1 
N 
s.t. > oii =0 


通常 ， 通 过 求解 对 偶 问 题 学 习 线性 可 分 支持 向 量 机 ,， 即 首先 求解 对 偶 问 题 的 最 优 
值 w*， 然 后 求 最 优 值 w* 和 b*， 得 出 分 离 超 平面 和 分 类 决策 函数 。 


2. 现实 中 训练 数据 是 线性 可 分 的 情形 较 少 , 训练 数据 往往 是 近似 线性 可 分 的 , 这 
时 使 用 线性 支持 向 量 机 ， 或 软 间隔 支持 向 量 机 。 线 性 支持 向 量 机 是 最 基本 的 支持 向 
量 机 。 

对 于 噪声 或 例外 , 通过 引入 松弛 变量 &, 使 其 “可 分 ”得 到 线性 支持 向 量 机 学 习 
的 凸 二 次 规划 问题 , 其 原始 最 优化 问题 是 : 


N 
. 1 2 
min z lell HLS 
st. y(weaz,+b)21-&, i1=1,2,---,N 


& 20, 1=1,2,---,N 


求解 原始 最 优化 问题 的 解 w*,b*， 得 到 线性 支持 向 量 机 ,其 分 离 超 平面 为 


w*.er+b=0 
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分 类 决策 函数 为 : 

f(x) = sign(w* « z+ 6*) 
线性 支持 向 量 机 的 解 w* 唯一 但 b* 不 一 定 唯一 。 
对 偶 问题 是 : 


NN 
1 
min 3 > , > OVW (es *2j)— > Qi 
i=1 j= 


N 
s.t. > ays =0 
i=1 


0<a,<C, i=1,2,---,N 


线性 支持 向 量 机 的 对 偶 学 习 算法 ,首先 求解 对 偶 问 题 得 到 最 优 解 a*, 然后 求 原始 
问题 最 优 解 w* 和 b, 得 出 分 离 超 平面 和 分 类 决策 函数 。 

对 偶 问题 的 解 a* 中 满足 of > 0 的 实例 点 zi 称 为 支持 向 量 。 支持 向 量 可 在 间隔 
边界 上 ,也 可 在 间隔 边界 与 分 离 超 平面 之 间 , 或 者 在 分 离 超 平面 误 分 一 侧 。 最 优 分 离 
超 平面 由 支持 向 量 完 全 决定 。 

线性 支持 向 量 机 学 习 等 价 于 最 小 化 二 阶 范 数 正则 化 的 合 页 函数 


N 
> fl = iw + xi + )], + Mwll? 


i=1 


3. 非 线 性 支持 向 量 机 

对 于 输入 空间 中 的 非 线性 分 类 问题 , 可 以 通过 非 线性 变换 将 它 转化 为 某 个 高 维特 
征 空间 中 的 线性 分 类 问题 , 在 高 维特 征 空 间 中 学 习 线性 支持 向 量 机 。 由 于 在 线性 支持 
向 量 机 学 习 的 对 偶 问 题 里 , 目标 函数 和 分 类 决策 函数 都 只 涉及 实例 与 实例 之 间 的 内 
积 ,所 以 不 需要 显 式 地 指定 非 线性 变换 ， 而 是 用 核 函 数 来 替换 当中 的 内 积 。 核 函数 表 
AR, 通过 一 个 非 线性 转换 后 的 两 个 实例 间 的 内 积 。 具 体 地 , KX (a, z) 是 一 个 核 函数 , 或 
正定 核 , 意味 着 存在 一 个 从 输入 空间 X 到 特征 空间 H 的 映射 ol): X> H, 对 任意 
tze, 有 


K(a, 2) = 6(2) + 6(2) 


对 称 函 数 K(x, 2) 为 正定 核 的 充 要 条 件 如 下 : 对 任意 zi € X, i =1,2,---,m, ERE 
整数 m, 对 称 函数 K(x, z) 对 应 的 Gram 和 矩阵 是 半 正 定 的 。 
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所 以 , 在 线性 支持 向 量 机 学 习 的 对 偶 问 题 中 , 用 核 函数 K(z,z) BRAR, 求解 得 
到 的 就 是 非 线性 支持 向 量 机 


N 
f(z) = sign z azy K(x, zi) + r) 


i=1 


4. SMO 算法 

SMO 算法 是 支持 向 量 机 学 习 的 一 种 快速 算法 ， 其 特点 是 不 断 地 将 原 二 次 规划 问 
题 分 解 为 只 有 两 个 变量 的 二 次 规划 子 问题 ， 并 对 子 问题 进行 解析 求解 , 直到 所 有 变量 
满足 KKT 条 件 为 止 。 这 样 通过 启发 式 的 方法 得 到 原 二 次 规划 问题 的 最 优 解 。 因 为 子 
问题 有 解析 解 ， 所 以 每 次 计算 子 问题 都 很 快 , 虽然 计算 子 问 题 次 数 很 多 , 但 在 总 体 上 
还 是 高 效 的 。 


线性 支持 向 量 机 ( 软 间 隔 ) 由 Cortes 与 Vapnik 提出 叫 。 同 时，Boser, Guyon 与 
Vapnik 又 引入 核 技 巧 , 提出 非 线性 支持 向 量 机 PI. Drucker 等 人 将 其 扩展 到 支持 向 量 
可 归 Bl, Vapnik Vladimir 在 他 的 统计 学 习 理 论 向 一 书 中 对 支持 向 量 机 的 泛 化 能 力 进 
行 了 论述 。 

Platt 提出 了 支持 向 量 机 的 快速 学 习 算法 SMO 回 ，Joachims 实现 的 SVM Light, 
以 及 Chang 与 Lin 实现 的 LIBSVM 软件 包 被 广泛 使 用 。@ 

原始 的 支持 向 量 机 是 二 类 分 类 模型 ， 又 被 推广 到 多 类 分 类 支持 向 量 机 [67， 以 及 
用 于 结构 预测 的 结构 支持 向 量 机 加。 

关于 支持 向 量 机 的 文献 很 多 。 支 持 向 量 机 的 介绍 可 参照 文献 [9~12]。 核 方法 被 认 
为 是 比 支持 向 量 机 更 具 一 般 性 的 机 器 学 习 方法 。 核 方法 的 介绍 可 参考 文献 [13~15]。 


习题 


7.1 比较 感知 机 的 对 偶 形 式 与 线性 可 分 支持 向 量 机 的 对 偶 形 式 。 

7.2 已 知 正 例 点 zi =(1,2)7, z2=(2,3)T, 23=(3,3)7, ABI v4 = (2,1)T, 
xs = (3,2)T， 试 求 最 大 间隔 分 离 超 平面 和 分 类 决策 函数 ,并 在 图 上 画 出 分 离 超 平面 、 
间隔 边界 及 支持 向 量 。 


@® SVM Light: http://svmlight.joachims.org/. LIBSVM: http://www.csie.ntu.edu.tw/~ cjlin/libsvm/. 
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7.3 ”线性 支持 向 量 机 还 可 以 定义 为 以 下 形式 : 


1 N 
min Sllwi?+C oe 
i=1 


st. yi(weai+b)2>1-&, 1=1,2,---,N 


试 求 其 对 偶 形 式 。 


7.4 证 明 内 积 的 正 整数 震 函 数 : 


K (2, z) = (a+ z)? 


是 正定 核 函 数 , 这 里 p 是 正 整数 , z,z eR”. 
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第 8 章 提升 方法 


提升 (boosting ) 方法 是 一 种 常用 的 统计 学 习 方法 , 应 用 广泛 且 有 效 。 在 分 类 问题 
中 , 它 通 过 改变 训练 样本 的 权重 , 学 习 多 个 分 类 器 , 并 将 这 些 分 类 器 进行 线性 组 合 , 提 
高 分 类 的 性 能 。 

本 章 首先 介绍 提升 方法 的 思路 和 代表 性 的 提升 算法 AdaBoost; 然后 通过 训 
练 误差 分 析 探 讨 AdaBoost 为 什么 能 够 提高 学 习 精 度 ; 并 且 从 前 向 分 步 加 法 模型 
的 角度 解释 AdaBoost; 最 后 叙述 提升 方法 更 具体 的 实例 一 一 提升 树 (boosting 
tree) 。AdaBoost 算法 是 1995 年 由 Freund 和 Schapire 提出 的 , 提升 树 是 2000 年 由 
Friedman 等 人 提出 的 。 


8.1 提升 方法 AdaBoost 算法 


8.1.1 提升 方法 的 基本 思路 


提升 方法 基于 这 样 一 种 思想 : 对 于 一 个 复杂 任务 来 说 , 将 多 个 专家 的 判断 进行 适 
当 的 综合 所 得 出 的 判断 ， 要 比 其 中 任何 一 个 专家 单独 的 判断 好 。 实 际 上 ， 就 是 “三 个 
臭 皮 匠 项 个 诸葛 亮 ”的 道理 。 

历史 上 ，Kearns 和 Valiant 首先 提出 了 “ 强 可 学 习 ”(strongly learnable) 和 “ 弱 
可 学 习 ”(weakly learnable) 的 概念 。 指 出 : 在 概率 近似 正确 (probably approximately 
correct, PAC) 学 习 的 框架 中 , 一 个 概念 (一 个 类 ), 如 果 存 在 一 个 多 项 式 的 学 习 算法 
能 够 学 习 它 , 并 且 正 确 率 很 高 , 那么 就 称 这 个 概念 是 强 可 学 习 的 ; 一 个 概念 , 如 果 存 在 
一 个 多 项 式 的 学 习 算 法 能 够 学 习 它 , 学 习 的 正确 率 仅 比 随机 猜测 略 好 ,那么 就 称 这 个 
概念 是 弱 可 学 习 的 。 非常 有 趣 的 是 Schapire 后 来 证 明 强 可 学 习 与 弱 可 学 习 是 等 价 的 ， 
也 就 是 说 , 在 PAC 学 习 的 框架 下 , 一 个 概念 是 强 可 学 习 的 充分 必要 条 件 是 这 个 概念 
是 弱 可 学 习 的 。 

ROR, EMA, ESA, 如 果 已 经 发 现 了 “ 弱 学 习 算 法 ”， 那 么 能 和 否 
将 它 提升 (boost) 为 “ 强 学 习 算 法 ”。 大 家 知道 ,发现 弱 学 习 算 法 通常 要 比 发 现 强 
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学 习 算 法 容易 得 多 。 那 么 如 何 具体 实施 提升 ， 便 成 为 开发 提升 方法 时 所 要 解决 的 问 
题 。 关 于 提升 方法 的 研究 很 多 ， 有 很 多 算法 被 提出 。 最 具 代表 性 的 是 AdaBoost 算 
法 (AdaBoost algorithm) 。 

对 于 分 类 问题 而 言 , 给 定 一 个 训练 样本 集 , 求 比较 粗糙 的 分 类 规则 ( 弱 分 类 器 ) 要 
比 求 精确 的 分 类 规则 〈 强 分 类 器 ) 容易 得 多 。 提升 方法 就 是 从 弱 学 习 算 法 出 发 , 反复 
学 习 , 得 到 一 系列 弱 分 类 器 (又 称 为 基本 分 类 器 ), 然后 组 合 这 些 弱 分 类 器 , 构成 一 个 
强 分 类 器 。 大 多 数 的 提升 方法 都 是 改变 训练 数据 的 概率 分 布 (训练 数据 的 权 值 分 布 )， 
针对 不 同 的 训练 数据 分 布 调用 弱 学 习 算法 学 习 一 系列 弱 分 类 器 。 

这 样 ， 对 提升 方法 来 说 ， 有 两 个 问题 需要 回答 : 一 是 在 每 一 轮 如 何 改 变 训练 数 
据 的 权 值 或 概率 分 布 ; 二 是 如 何 将 弱 分 类 器 组 合成 一 个 强 分 类 器 。 关 于 第 1 个 问 
题 , AdaBoost 的 做 法 是 , 提高 那些 被 前 一 轮 弱 分 类 器 错误 分 类 样本 的 权 值 , 而 降低 那 
些 被 正确 分 类 样本 的 权 值 。 这 样 一 来 , 那些 没有 得 到 正确 分 类 的 数据 ,由 于 其 权 值 的 
加 大 而 受到 后 一 轮 的 弱 分 类 器 的 更 大 关注 。 于 是 , 分 类 问题 被 一 系列 的 弱 分 类 器 “分 
而 治之 ”。 至 于 第 2 个 问题 , 即 弱 分 类 器 的 组 合 , AdaBoost 采取 加 权 多 数 表 决 的 方法 。 
具体 地 ， 加 大 分 类 误差 率 小 的 弱 分 类 器 的 权 值 , 使 其 在 表决 中 起 较 大 的 作用 ; 减 小 分 
类 误差 率 大 的 弱 分 类 器 的 权 值 , 使 其 在 表决 中 起 较 小 的 作用 。 

AdaBoost 的 巧妙 之 处 就 在 于 它 将 这 些 想法 自然 且 有 效 地 实现 在 一 种 算法 里 。 


TH 


8.1.2 AdaBoost 算法 

现在 叙述 AdaBoost 算法 。 假设 给 定 一 个 二 类 分 类 的 训练 数据 集 

T = {(a1, 41), (zay2) (ZNVN)} 

其 中 , 每 个 样本 点 由 实例 与 标记 组 成 。 实 例 zi EX CR", 标记 ys EY = {-1,41}, X 
是 实例 空间 , Y 是 标记 集合 。AdaBoost 利用 以 下 算法 ,从 训练 数据 中 学 习 一 系列 弱 分 
类 器 或 基本 分 类 器 ,并 将 这 些 弱 分 类 器 线性 组 合成 为 一 个 强 分 类 器 。 

算法 8.1 (AdaBoost) 

HA: VBR T = {(21, 41), (zay) , (ZN;,YN)}, 其 中 EX CR", me 
Y={-1,4+1}; 弱 学 习 算 法 ; 

输出 : 最 终 分 类 器 G(z)。 

(1) 初始 化 训练 数据 的 权 值 分 布 


1 
Dy = (wa Wiis Win), Wie = ii i=1,2, ,NN 


(2) Xf m =1,2,---,M 
(a) 使 用 具有 权 值 分 布 Din 的 训练 数据 集 学 习 , 得 到 基本 分 类 器 
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Gy(x): X > {-1,+1} 


D) 计算 Gm(x) 在 训练 数据 集 上 的 分 类 误差 率 


N N 
em = XO P(Gm(2i) A Yi) = >》 wmil (Gm (xi) # Yi) (8.1) 
i=1 i=1 
(c) 计算 Gm (x) 的 系数 
Qm = Zilog 1 = (8.2) 
这 里 的 对 数 是 自然 对 数 。 
Cd) 更 新 训练 数据 集 的 权 值 分 布 
也 n+1 = (Wm+1,15°*° ;Wm+1,i ,Wm+1N) (8.3) 
Wnts = Fe exp(—amyiGm(zi), i=1,2,N (8.4) 
RE, Zm 是 规范 化 因子 
N 
Zm = 5 Wmi exp(—AmYiGm(xi)) (8.5) 
i=1 
它 使 Dm+1 成 为 一 个 概率 分 布 。 
(3) 构建 基本 分 类 器 的 线性 组 合 
M 
f(z) = YS amGm(z) (8.6) 
m=1 
得 到 最 终 分 类 器 
G(z) = sign(f(7)) 
M 
= sign (> onGn(e) (8.7) m 
m=1 
对 AdaBoost 算法 作 如 下 说 明 : 


步骤 (1) ”假设 训练 数据 集 具有 均匀 的 权 值 分 布 , 即 每 个 训练 样本 在 基本 分 类 器 
的 学 习 中 作用 相同 , 这 一 假设 保证 第 1 步 能 够 在 原始 数据 上 学 习 基本 分 类 器 G1 (x)。 

步骤 (2) AdaBoost 反复 学 习 基 本 分 类 器 , 在 每 一 轮 m = 1,2,… , M 顺 次 地 
执行 下 列 操作 : 

(a) 使 用 当前 分 布 Dm 加 权 的 训练 数据 集 , 学 习 基 本 分 类 器 Gn (z) 0 
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(b) 计算 基本 分 类 器 Gwm(z) 在 加 权 训 练 数据 集 上 的 分 类 误差 率 : 
N 
em = DP(Gn(zi) # vi) 
i=l 


= J, wm (8.8) 
Cm (as) AVi 


这 里 ，wmi 表示 第 m 轮 中 第 i 个 实例 的 权 值 ， Sn = 1。 这 表明 , Gn(x) 在 加 权 的 
训练 数据 集 上 的 分 类 误差 率 是 被 Gn,(z) 误 分 类 样本 的 权 值 之 和 ， 由 此 可 以 看 出 数据 
权 值 分 布 Dm 与 基本 分 类 器 Gm(z) 的 分 类 误差 率 的 关系 。 

Co) 计算 基本 分 类 器 Gm(z) 的 系数 Ome Am 表示 Gm (x) 在 最 终 分 类 器 中 的 重要 
性 。 由 式 (8.2) 可 知 ， 当 em < 3 时 , am > 0, IFA am 随 着 em 的 减 小 而 增 大 , 所 以 
分 类 误差 率 越 小 的 基本 分 类 器 在 最 终 分 类 器 中 的 作用 越 大 。 

Cd) 更 新 训练 数据 的 权 值 分 布 为 下 一 轮作 准备 。 式 (8.4) 可 以 写成 : 


| Wri arim, Gm(zi) = Yi 
Zm 
Wm+1,i = 


Fie, G(Ti) # yi 


m 


由 此 可 知 , 被 基本 分 类 器 G,(z) 误 分 类 样本 的 权 值 得 以 扩大 , 而 被 正确 分 类 样本 的 
权 值 却 得 以 缩小 。 两 相 比较 ， 由 式 (8.2) 知 误 分 类 样本 的 权 值 被 放大 ezam = Lem 


em 
倍 。 因此, 误 分 类 样本 在 下 一 轮 学 习 中 起 更 大 的 作用 。 不 改变 所 给 的 训练 数据 ， 而 不 
断 改 变 训练 数据 权 值 的 分 布 , 使 得 训练 数据 在 基本 分 类 器 的 学 习 中 起 不 同 的 作用 , 这 
是 AdaBoost 的 一 个 特点 。 

步骤 (3) ”线性 组 合 f(z) 实现 M 个 基本 分 类 器 的 加 权 表 决 。 系数 Om HA TH 
本 分 类 器 Gm(z) 的 重要 性 , 这 里 , 所 有 am 之 和 并 不 为 1。f(z) 的 符号 决定 实例 x 的 
AE, f(x) 的 绝对 值 表示 分 类 的 确信 度 。 利 用 基本 分 类 器 的 线性 组 合 构建 最 终 分 类 器 是 
AdaBoost 的 男 一 特点 。 


8.1.3 AdaBoost 的 例子 0 


例 8.1 给 定 如 表 8.1 所 示 训 练 数 据 。 假设 弱 分 类 器 由 z <v 或 z >v 产生 , 其 
BWE v 使 该 分 类 器 在 训练 数据 集 上 分 类 误差 率 最 低 。 试 用 AdaBoost 算法 学 习 一 个 强 
分 类 器 。 


O 例题 来 源 于 http://www.csie.edu.tw。 
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表 8.1 ”训练 数据 表 
序号 1 2 3 4 5 6 9 10 
了 0 1 2 3 4 5 8 9 
y 1 1 =1 =1 =1 =f 


RE ”初始 化 数据 权 值 分 布 


Di = (will2，… , W110) 


wy =01, 1=1,2,---,10 


x} m=1, 


(a) 在 权 值 分 布 为 Di 的 训练 数据 上 , BE v 取 2.5 时 分 类 误差 率 最 低 , 故 基本 分 


类 器 为 


ne DS 25 
Gi(z) = 
=i; @>2.5 


(b) Gi(a) 在 训练 数据 集 上 的 误差 率 el = P(Gi(xi) yi) = 0.3. 


C) 计算 G1(z) 的 系数 : al = jg 一 全 = 0.4236. 
Cd) 更 新 训练 数据 的 权 值 分 布 : 
Da = (w21…… ,2i , W210) 


wi = Pi exp(—aryiGi(ai)), i=1,2,---,10 


Zı 


Dz = (0.07143, 0.07143, 0.07143, 0.07143, 0.07143, 0.07143, 


0.16667, 0.16667, 0.16667, 0.07143) 
户 (z) = 0.4236Ga(z) 


分 类 器 sign[ 有 1(z)] 在 训练 数据 集 上 有 3 个 误 分 类 点 。 


xt m= 2, 


(a) 在 权 值 分 布 为 Ds 的 训练 数据 上 , BE v 是 8.5 时 分 类 误差 率 


器 为 

{i g< 8.5 
G2(7) = 
-1, 7T>8.5 


(b) Go(x) 在 训练 数据 集 上 的 误差 率 e =0.2143. 
(c) 计算 az =0.6496. 


低 , 基本 分 类 
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D 更 新 训练 数据 权 值 分 布 : 


Da = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.1667， 
0.1060, 0.1060, 0.1060, 0.0455) 
fo(x) = 0.4236G) (x) + 0.6496G2(z) 
分 类 器 sign[f2(z)] 在 训练 数据 集 上 有 3 个 误 分 类 点 。 
xt m = 3, 
(a) 在 权 值 分 布 为 Ds 的 训练 数据 上 , BIE v 是 5.5 时 分 类 误差 率 最 低 ， 基 本 分 类 器 为 


a 50 
Gs(7) = i - 
-1, «<5. 


(b) G(x) 在 训练 样本 集 上 的 误差 率 es =0.1820. 
Ce) 计算 as =0.7514. 
Cd) 更 新 训练 数据 的 权 值 分 布 : 


Da = (0.125, 0.125, 0.125, 0.102, 0.102, 0.102, 0.065, 0.065, 0.065, 0.125) 


于 是 得 到 : 
f(x) = 0.4236G1 (x) + 0.6496G2(x) + 0.7514G3(z) 
分 类 器 sign f3(x)| 在 训练 数据 集 上 误 分 类 点 个 数 为 0。 


于 是 最 终 分 类 器 为 


G(x) = sign[fs(x)] = sign[0.4236G) (x) + 0.6496G2(x) + 0.7514G3(z)] B 


8.2 AdaBoost 算法 的 训练 误差 分 析 


AdaBoost 最 基本 的 性 质 是 它 能 在 学 习 过 程 中 不 断 减 少 训练 误差 ， 即 在 训练 数据 
集 上 的 分 类 误差 率 。 关 于 这 个 问题 有 下 面 的 定理 。 

定理 8.1 (AdaBoost 的 训练 误差 界 ) AdaBoost 算法 最 终 分 类 器 的 训练 误差 
界 为 


N 
LEGE) 4v) <E exw(—wis (od) = T] Zn (8.9) 
i=1 i m 


ZE, G(x), f(x) 和 Zm TAIHA (8.7). X (8.6) 和 式 (8.5) 给 出 。 
证 明 “4 G(ai) A ys IN. yif (ai) <0, AT exp(—yif(z:)) > 1。 由 此 直接 推导 出 
前 半 部 分 。 
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后 半 部 分 的 推导 要 用 到 Zm 的 定义 式 (8.5) 及 式 (8.4) 的 变形 : 
Wmi exp(—QmYiGm(Ti)) = ZmWm+1,i 


现 推导 如 下 : 
1 1 x 
Porus) = g Dew |- Yo amviGn(as) 
a i m=1 


M 
= > wi Il exp(—AmYiGm(zi)) 
i m=1 


M 
= 21 > wz [[ exp(-amyiGm(ai)) 
a m=2 
M 


= ZZ: 》 wsi Il exp(—AmYiGm(xi)) 


m=3 


= Z122- Zm-1 X wmiexp(-amy:Gm(z:)) 


这 一 定理 说 明 , 可 以 在 每 一 轮 选取 适当 的 G E Zm 最 小 , 从 而 使 训练 误差 下 
降 最 快 。 对 二 类 分 类 问题 有 如 下 结果 。 


定理 8.2 (二 类 分 类 问题 AdaBoost 的 训练 误差 界 ) 


M M 
II Zm = Il [2Vem(1 一 em)] 
M 
= |] va-r 
M 
< exp (= D Z) (8.10) 


XE, m= 3 一 em。 
证 明 H Zm 的 定义 式 (8.5) 及 式 (8.8) 得 


N 
Zm = > Wmi exp(—AmYiGm(Zi)) 


i=l 


= > Wmie cm + > Wmie*™ 


yi=Gm (zi) yi#AGm (xi) 
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= Be "ten 

= 2Vem(l — em) 

= y1- 472, (8.11) 
至 于 不 等 式 


M M 
II VO- aA < exp (= > 品 | 
m=1 m=1 


则 可 先 由 er 和 Vi 一 x 在 点 x = 0 的 泰勒 展开 式 推 出 不 等 式 V1- 473) < 
exp(—272,), 进而 得 到 。 a 


推论 8.1 如 果 存 在 7 > 0, 对 所 有 m 有 ymy 则 


N 
HUG) # v) <exn(-2M7) (8.12) 
这 表明 在 此 条 件 下 AdaBoost 的 训练 误差 是 以 指数 速率 下 降 的。 这 一 性 质 当然 是 
很 有 吸引 力 的 。 
注意 ，AdaBoost 算法 不 需要 知道 下 界 7Y， 这 正 是 Freund 与 Schapire 设计 Ada- 
Boost 时 所 考虑 的 。 与 一 些 早期 的 提升 方法 不 同 AdaBoost 具有 适应 性 ， 即 它 能 适应 
弱 分 类 器 各 自 的 训练 误差 率 。 这 也 是 它 的 名 称 (适应 的 提升 ) 的 由 来 , Ada 是 Adaptive 
的 简写 。 


8.3 AdaBoost 算法 的 解释 


AdaBoost 算法 还 有 另 一 个 解释 ,， 即 可 以 认为 AdaBoost 算法 是 模型 为 加 法 模型 、 
损失 函数 为 指数 函数 、 学 习 算法 为 前 向 分 步 算 法 时 的 二 类 分 类 学 习 方 法 。 


8.3.1 前 向 分 步 算 法 
考虑 加 法 模型 (additive model) 


M 
f(z) = >》 Bmb(z; Ym) (8.13) 


m=1 


其 中 ,5b(z; Ym) HÆR, ym 为 基 函 数 的 参数 ，Bw ARB REL. 显然 , 式 (8.6) 
是 一 个 加 法 模型 。 
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在 给 定 训练 数据 及 损失 函数 L(y, f(z)) 的 条 件 下 ,学 习 加 法 模型 f(z) 成 为 经 验 
风险 极 小 化 即 损失 函数 极 小 化 问题 : 


gain yu >» £ BmblEi; Ym ) (8.14) 


通常 这 是 一 个 复杂 的 优化 问题 。 前 向 分 步 算法 (forward stagewise algorithm) 求 
解 这 一 优化 问题 的 想法 是 : 因为 学 习 的 是 加 法 模型 , 如果 能 够 从 前 向 后 ,每 一 步 只 学 
习 一 个 基 函 数 及 其 系数 ,逐步 逼近 优化 目标 函数 式 (8.14), 那么 就 可 以 简化 优化 的 复 
杂 度 。 具 体 地 , 每 步 只 需 优 化 如 下 损失 函数 : 


N 
min > L (vi, Bb(zi;7) (8.15) 
sY i=l 


给 定 训练 数据 集 T = {(21, y1), (2,Y2) ,ZN,YyN)}, EX CR", yi E V = 
{-1, +1}。 损 失 函 数 L(y, f(x)) 和 基 函 数 的 集合 {a(zi7)}， 学 习 加 法 模型 f(z) 的 前 向 
分 步 算 法 如 下 。 

算法 8.2 (前 向 分 步 算法 ) 

输入 : MARR T = {(21,91), (7z2,9y2),… (EN yN) PARAM Ly, f(z)); 基 
函数 集 {2(z; 7)}; 

输出 : 加 法 模型 f(zx)。 


(1) 初始 化 folz) = 
(2) 对 m=1,2,.…,M 
(a) 极 小 化 损失 函数 
N 
(Bm: Im) = arg min X L (yi, fmi (2) + Bb(2i5)) (8.16) 
” i=l 
得 到 参数 bm> me 
Cb) 更 新 
fm(7) = fm-1 (£) + Bmb(z; Ym) (8.17) 
(3) 得 到 加 法 模型 
f(z) = fu(z) = > Bmb( T; Ym) (8.18) 


这 样 , 前 向 分 步 算 法 将 同时 求解 从 m = 1 到 M 所 有 参数 Bms Ym 的 优化 问题 简 
化 为 逐次 求解 各 个 Bins Ym 的 优化 问题 。 
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8.3.2 前 向 分 步 算法 与 AdaBoost 


1 前 向 分 步 算 法 可 以 推导 出 AdaBoost, 用 定理 叙述 这 一 关系 。 

定理 8.3 AdaBoost 算法 是 前 向 分 步 加 法 算法 的 特例 。 这 时 ,模型 是 由 基本 分 类 
器 组 成 的 加 法 模型 ， 损失 函数 是 指数 函数 。 

证 明 前 向 分 步 算 法 学 习 的 是 加 法 模型 ， 当 基 函 数 为 基本 分 类 器 时 ， 该 加 法 模型 
等 价 于 AdaBoost 的 最 终 分 类 器 


M 
f(z) = >》 amGm(z) (8.19) 


由 基本 分 类 器 Gin(z) 及 其 系数 am 组 成 , m = 1,2,… , M。 前 向 分 步 算法 逐一 学 习 
基 函 数 ， 这 一 过 程 与 AdaBoost 算法 逐一 学 习 基 本 分 类 器 的 过 程 一 致 。 下 面 证 明 前 向 
分 步 算法 的 损失 函数 是 指数 损失 函数 (exponential loss function) 

L(y, f(7)) = exp[-y f (2)] 


时 , 其 学 习 的 具体 操作 等 价 于 AdaBoost 算法 学 习 的 具体 操作 。 
假设 经 过 m — 1 轮 和 迭代 前 向 分 步 算法 已 经 得 到 fm—1(x): 


fm-1(7) = fm-2(2) + Qm-1Gm-1(7) 
= aG (x) + +++ + Am—1Gm-_1(2) 
在 第 m WERE ams Gm(x) 和 fin(x)> 
fm(7) = fm-1(7) + QamGm(7) 
目标 是 使 前 向 分 步 算 法 得 到 的 ww 和 Gm(z) 使 f(x) 在 训练 数据 集 T 上 的 指数 损失 
最 小 , 即 


N 


(am, Gm(7)) = arg min > exp[—yi(fm—1(2i) + aG(zx:))] (8.20) 
” i=l 
式 (8.20) 可 以 表示 为 
N 
(am, Gm(2)) = arg min >) Dmi exp[—yiaG (zi)] (8.21) 
a 


EH, Omi = exp[ 一 Yifm_1(7i)]。 因 为 Umi 既 不 依赖 a 也 不 依赖 于 G,， 所 以 与 最 小 化 
无 关 。 但 Di 依赖 于 fm-1(z), 随 着 每 一 轮 迭 代 而 发 生 改 变 。 

现 证 使 式 (8.21) 达到 最 小 的 ax 和 G*(z) 就 是 AdaBoost 算法 所 得 到 的 am 和 
Gm(z)。 求 解 式 (8.21) 可 分 两 步 : 
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首先 , 求 GS, (z)。 对 任意 a > 0, 使 式 (8.21) 最 小 的 G(z) 由 下 式 得 到 : 
N 
G} (z) = arg min X | mil (ys # G(z:)) 


i=1 


其 中 , Omi = exp[ 一 yifm-1(7i)]。 
此 分 类 器 G(x) 即 为 AdaBoost 算法 的 基本 分 类 器 G(x), 因为 它 是 使 第 m HE 
加 权 训 练 数据 分 类 误差 率 最 小 的 基本 分 类 器 。 


之 后 , K ape ZRA (8.11), I (8.21) 中 


N 
> Omi exp[—yiaG(z;)] = > Dmie ~ + 5 Dmie” 
t=1 Yi=Gm(zi) YVi#Gm(T:) 
N 


= (e*-e % ) Dm il (yi #G(x;)) +e-* 


j=1 i 


Wmi (8-22) 


Us 


I 
= 


将 已 求 得 的 G%(z) 代 入 式 (8.22), 对 a 求 导 并 使 导数 为 0, 即 得 到 使 式 (8.21) 最 小 的 a。 


1 一 em 


an = 5 log 
Em 


其 中 , em 是 分 类 误差 率 : 


N 
So Gmil(yi # Gm(2i)) 


_ #=1 
N 
> Wmi 
i=1 


em = 


N 
= > wmil (yi # Gm(7i)) (8.23) 


i=l 

这 里 的 až, 与 AdaBoost 算法 第 2(c) WH am 完全 一 致 。 
最 后 来 看 每 一 轮 样本 权 值 的 更 新 。 由 
fm(@) = fm-1(7) + amGm(7) 


以 及 名 mi = exp[—yifm—1(xi)], 可 得 


Dm+1,i = Wmi exp[—YiQAmGm(7)] 


这 与 AdaBoost 算法 第 2(d) 步 的 样本 权 值 的 更 新 ,只 相差 规范 化 因子 ， 因 而 
等 价 。 国 
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84 fe 升 树 


提升 树 是 以 分 类 树 或 回归 树 为 基本 分 类 器 的 提升 方法 。 提 升 树 被 认为 是 统计 学 习 
性 能 最 好 的 方法 之 一 。 


7 


8.4.1 提升 树 模型 


提升 方法 实际 采用 加 法 模型 ( 即 基 函数 的 线性 组 合 ) 与 前 向 分 步 算法 。 以 决策 树 
为 基 函 数 的 提升 方法 称 为 提升 树 (boosting tree) 。 对 分 类 问题 决策 树 是 二 又 分 类 树 ， 
对 回归 问题 决策 树 是 二 又 回归 树 。 在 例 8.1 中 看 到 的 基本 分 类 器 z <u 或 z >v, WA 
看 作 是 由 一 个 根 结 点 直接 连接 两 个 叶 结 点 的 简单 决策 树 ,， 即 所 谓 的 决策 树桩 (decision 
stump) 。 提 升 树 模型 可 以 表示 为 决策 树 的 加 法 模型 : 


M 
fulz) = X T(x; Om) (8.24) 


其 中 , T(z; Om) 表示 决策 树 ,eB 为 决策 树 的 参数 ，M 为 树 的 个 数 。 


8.4.2 ”提升 树 算法 
提升 树 算法 采用 前 向 分 步 算法 。 首 先 确定 初始 提升 树 fo(z)= 0, 第 mm 步 的 模型 是 


fm(7) = fm-1(7) + T(z;Om) (8.25) 


其 中 ,fin-1(z) 为 当前 模型 , 通过 经 验 风险 极 小 化 确定 下 一 棵 决策 树 的 参数 Om: 


N 
Om = arg eo L(yi; fm—1(2i) + T (i; Om)) (8.26) 


1 于 树 的 线性 组 合 可 以 很 好 地 拟 合 训练 数据 ， 即 使 数据 中 的 输入 与 输出 之 间 的 关 
系 很 复杂 也 是 如 此 , 所 以 提升 树 是 一 个 高 功能 的 学 习 算 法 。 
下 面 讨论 针对 不 同 问题 的 提升 树 学 习 算法 ,其 主要 区 别 在 于 使 用 的 损失 函数 不 
同 。 包括 用 平方 误差 损失 函数 的 回归 问题 , 用 指数 损失 函数 的 分 类 问题 ， 以 及 用 一 般 
损失 函数 的 一 般 决 策 问题 。 

对 于 二 类 分 类 问题 ， 提 升 树 算法 只 需 将 AdaBoost 算法 8.1 中 的 基本 分 类 器 限制 
为 二 类 分 类 树 即 可 , 可 以 说 这 时 的 提升 树 算法 是 AdaBoost 算法 的 特殊 情况 , 这 里 不 
再 细 述 。 下 面 叙述 回归 问题 的 提升 树 。 
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已 知 一 个 训练 数据 集 了 = {(01, y1), (7z2,y2),… (EN yn)}> EX CR", XH 
输入 空间 , wey CR, Y 为 输出 空间 。 在 5.5 节 中 已 经 讨论 了 回归 树 的 问题 。 如 果 将 
输入 空间 X 划分 为 了 个 互 不 相交 的 区 域 Ri, Ro,… , Ry， 并 且 在 每 个 区 域 上 确定 输 
出 的 常量 c, 那么 树 可 表示 为 


J 
T(z;©) = >》 ciTlze Rj) (8.27) 


HH, BHO = {(Ri,c1), (R2,c2),… , (Ry, e7)} 表示 树 的 区 域 划 分 和 各 区 域 上 的 常 
Blo J 是 回归 树 的 复杂 度 即 叶 结 点 个 数 。 
回归 问题 提升 树 使 用 以 下 前 向 分 步 算 法 : 


互 


fo(x) = 0 

fin(7) = fm-1(7) +T(z;9m), m=1,2,---,M 
M 

fule) = > T(x; Om) 


m=1 
在 前 向 分 步 算法 的 第 m 步 , 给 定 当前 模型 f_1(x), 需求 解 
N 
x= argigin $- Ly fm- (2i) +T(zi;Om)) 


得 到 6， 即 第 mm RASA 
当 采 用 平方 误差 损失 函数 时 ， 


L(y, f(z) = (y — f(2))? 


其 损失 变 为 
L(y, fm-1(2) + T(z;Om)) = [y — fm-1(2) — T(z; Om)]? 
= [r - T(z; Om)]? 
这 里 ， 
r =y- fm-1(7) (8.28) 


是 当前 模型 拟 合 数据 的 残 差 (residual) 。 所 以 , 对 回归 问题 的 提升 树 算法 来 说 , 只 需 简 
单 地 拟 合 当前 模型 的 残 差 。 这样， 算法 是 相当 简单 的 。 现 将 回归 问题 的 提升 树 算法 叙 
述 如 下 。 
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算法 8.3 (回归 问题 的 提升 树 算法 ) 
输入 : MAAR T ={(21,y1), (x2,y2),…, (ZN,yN)}, Zi EXCR", yE YCR; 
输出 : 提升 树 fy (zx)。 
(1) 初始 化 fo(zx) = 0。 
(2) Xf m=1,2,---,Me 
(a) ZR (8.27) 计算 残 差 : 


Tmi = Yi — fm-1 (1i), 1=1,2,---,N 


(b) 拟 合 残 差 Tmi 学习 一 个 回归 树 , 得 到 T(z; Om) 
(c) 更 新 fin(2) = fm-1(2) 十 T(zi6m)。 
(3) 得 到 回归 问题 提升 树 


M 
f(x) = X T(x; Om) B 
m=1 
例 8.2 已 知 如 表 8.2 所 示 的 训练 数据 , x 的 取 值 范围 为 区 间 [0.5,10.5], y 的 取 值 
范围 为 区 间 [5.0,10.0], 学 习 这 个 回归 问题 的 提升 树 模型 ,考虑 只 用 树桩 作为 基 函 数 。 


表 8.2 ”训练 数据 表 
Li 1 2 3 4 5 6 7 8 9 10 
yi 5.56 570 5.91 640 6.80 705 890 870 9.00 9.05 


解 按照 算法 8.3, 第 1 WK fi (x) 即 回归 树 T(x)。 
首先 通过 以 下 优化 问题 : 


min |min > (yi — c1)? + min 》 (yi — c2)? 
s C1 C2 
TiER1 Ti€ER> 


求解 训练 数据 的 切 分 点 s: 


R, ={2t\c <s}, R= {alz > s} 
容易 求 得 在 Ri» Ro 内 部 使 平方 损失 误差 达到 最 小 值 的 cl，cs 为 


azy Èm azg Du 


TiER1 Ti€ER2 


这 里 NM, N 是 Ri, Ro 的 样本 点 数 。 
求 训练 数据 的 切 分 点 。 根据 所 给 数据 ,考虑 如 下 切 分 点 : 


1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5 
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对 各 切 分 点 , 不 难 求 出 相应 的 Ri,» Ror cis cz 及 
m(s)=min 》 (yi—c)+min 》 (yi c2)? 
“a Ti€ER1 a TiER> 
例如 , 当 s = 1.5 时 , Ry = {1}, Ro = {2,3,--- ,10}, c1 = 5.56, co = 7.50, 


m(s)=min $> (yi —er)?+min >, (yi — c2)? = 0 + 15.72 = 15.72 
xiERı TiER2 


现 将 s 及 m(s) 的 计算 结果 列表 如 下 〈 见 表 8.3)。 


表 8.3 ”计算 数据 表 
s 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5 
m(s) 15.72 12.07 836 5.78 391 1.93 801 11.73 15.74 


IÆ 8.3 WS, “4s = 6.5 时 mm(s) 达到 最 小 值 ， 此 时 Ry = {1,2,--- ,6}, Ro = 
{7,8,9,10}, cy = 6.24, co = 8.91, 所 以 回归 树 Ty (x) 为 


fia | 6.24, z<6.5 
8.91, z>6.5 
f(z) = T(z) 
用 f(a) 拟 合 训练 数据 的 残 差 见 表 8.4, RP ra = yi — filzi) i= 1,2,… , 100 
表 8.4 KER 


Ti 1 2 3 4 5 6 7 8 9 10 
ra —068 -0.54 -0.33 0.16 0.56 0.81 —0.01 -021 0.09 0.14 


d Ala) 拟 合 训练 数据 的 平方 损失 误差 : 
10 


Ly, filz)) = 》 (vi — fi (2:))? = 1.93 


i=1 
第 2 BR To(x) MEIR Ti (x) 一 样 , 只 是 拟 合 的 数据 是 表 8.4 的 残 差 。 可 以 得 到 : 


T(z) = 0.52, x< 3.5 
á 0.22, zy>3.5 


5.72, 2<3.5 
户 (z) = fi(z) + Ta(x) = 4 6.46, 3.5 < x< 6.5 
9.13, 2>65 
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1 fo(z) 拟 合 训练 数据 的 平方 损失 误差 是 


10 


L(y, f2(2)) = >》 (vi — fo(zi))? = 0.79 


i=1 


0.15, «<65 
T3(x) = L(y, f3(x)) = 0.47, 
—0.22, x> 6.5 


—0.16, x< 4.5 
Ta(z) = | Ly, fa(x)) = 0.30, 


0.11, «2245 
0.07, «<65 

Ts(7) = L(y, fs(£)) = 0.23, 
—0.11, 7>65 


Ts(z) 一 0.15，2< 2.5 
6(7T) = 
0.04, oe 25 


jJ6(z) = fs(x) + Te(x) = Ti (x) + -+- + T5(a) + To(x) 
5.63, x< 2.5 
5.82, 25<2<35 


=? 656, 35<2<45 
6.83, 45<2<65 
8.95, x > 6.5 


d f(x) 拟 合 训 练 数据 的 平方 损失 误差 是 
10 


L(y, fe(x)) = D (yi — fo(xi))? = 0.17 


i=1 


假设 此 时 已 满足 误差 要 求 , 那么 f(z) = fe(z) 即 为 所 求 提 升 树 。 a 


8.4.3 梯度 提升 


提升 树 利用 加 法 模型 与 前 向 分 步 算法 实现 学 习 的 优化 过 程 。 当 损失 函数 是 平方 损 
失 和 指数 损失 函数 时 , 每 一 步 优 化 是 很 简单 的 。 但 对 一 般 损失 函数 而 言 , 往往 每 一 步 
优化 并 不 那么 容易 。 针对 这 一 问题 , Freidman 提出 了 梯度 提升 (gradient boosting) 算 


8.4 提升 树 


aval 


法 。 这 是 利 


的 值 


-ae 
OF (zi) J pcr)=f in) 


作为 回归 问题 提升 树 算法 中 的 残 差 的 近似 值 , 拟 合 一 个 回归 树 。 
算法 8.4 (梯度 提升 算法 ) 
输入 : 训练 数据 集 T={(z1,y1), (22, y2),--+, (EN yw) } EX CR", yi EV CR; 
损失 函数 L(y, f(x))s 
输出 : 回归 树 f(x). 
(1) 初始 化 


N 
folz) = argmin X ` Lyi, c) 


i=1 


(2) Xt m=1,2,---,M 
(a) MH i=1,2,---,N, 计算 


re Er 


of (zi) = 


最 速 下 降 法 的 近似 方法 ， 其 关键 是 利用 损失 函数 的 负 梯 度 在 当前 模型 


(b) 对 mi 拟 合 一 个 回归 树 , 得 到 第 mm 棵 树 的 叶 结 点 区 域 Rings j = 1,2,…, Jo 
(c) 对 了 = 1,2,… ,J， 计算 


Cmj = arg min SS L(yi, fm-1 (21) + ©) 


TiERmj 


J 
(D 更 新 fm(2) = 名 -li(z) + > cmT(z € Rn) 


(3) 得 到 回归 树 


j=1 


算法 第 1 步 初始 化 ,估计 使 损失 函数 极 小 化 的 常数 值 ， 它 是 只 有 一 个 根 结 点 的 
树 。 第 2(a) 步 计算 损失 函数 的 负 梯 度 在 当前 模型 的 值 , 将 它 作 为 残 差 
方 损失 函数 ， 它 就 是 通常 所 说 的 残 差 ; 对 于 一 般 损失 函数 ， 它 就 是 残 差 的 近似 值 。 第 


2(b) 步 估计 


回归 树叶 结 点 


的 估计 。 对 于 平 


区 域 ， 以 拟 合 残 差 的 近似 值 。 第 2(c) 步 利 


线性 搜索 估计 


叶 结 点 区 域 的 值 ， 使 损失 函数 极 小 化 。 第 2(d) 步 更 新 回归 树 。 第 3 步 得 到 输出 的 最 终 


模型 f(z). 
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本 章 概 要 


1. 提升 方法 是 将 弱 学 习 算 法 提升 为 强 学 习 算 法 的 统计 学 习 方法 。 在 分 类 学 习 中 ， 
提升 方法 通过 反复 修改 训练 数据 的 权 值 分 布 , 构建 一 系列 基本 分 类 器 ( 弱 分 类 器 ), 并 将 
这 些 基 本 分 类 器 线性 组 合 ， 构 成 一 个 强 分 类 器 。 代表 性 的 提升 方法 是 AdaBoost 算法 。 

AdaBoost 模型 是 弱 分 类 器 的 线性 组 合 : 


M 
f(z) = > AmGm(x) 
m=1 


2. AdaBoost 算法 的 特点 是 通过 迭代 每 次 学 习 一 个 基本 分 类 器 。 每 次 迭代 中 , 提 
高 那些 被 前 一 轮 分 类 器 错误 分 类 数据 的 权 值 , 而 降低 那些 被 正确 分 类 的 数据 的 权 值 。 
最 后 ，AdaBoost 将 基本 分 类 器 的 线性 组 合作 为 强 分 类 器 ,其 中 给 分 类 误差 率 小 的 基 
本 分 类 器 以 大 的 权 值 , 给 分 类 误差 率 大 的 基本 分 类 器 以 小 的 权 值 。 

3. AdaBoost 的 训练 误差 分 析 表 明 , AdaBoost 的 每 次 迭代 可 以 减少 它 在 训练 数据 
集 上 的 分 类 误差 率 , 这 说 明了 它 作 为 提升 方法 的 有 效 性 。 

4. AdaBoost 算法 的 一 个 解释 是 该 算法 实际 是 前 向 分 步 算 法 的 一 个 实现 。 在 这 个 
方法 里 , 模型 是 加 法 模型 , 损失 函数 是 指数 损失 , 算法 是 前 向 分 步 算 法 。 

每 一 步 中 极 小 化 损失 函数 


N 
(Bms%m) = argmin > L (yi fm-1(2:) + Boles; )) 
Y El 


得 到 参数 bm> Yme 


5. 提升 树 是 以 分 类 树 或 回归 树 为 基本 分 类 器 的 提升 方法 。 提 升 树 被 认为 是 统计 学 
习 中 最 有 效 的 方法 之 一 。 


提升 方法 的 介绍 可 参见 文献 [1, 2]. PAC 学 习 可 参见 文献 [3] 。 强 可 学 习 与 弱 可 学 
习 的 关系 可 参见 文献 四。 关于 AdaBoost 的 最 初 论文 是 文献 [5]。 关 于 AdaBoost 的 前 
] 分 步 加 法 模型 解释 参见 文献 [6], 提升 树 与 梯度 提升 可 参见 文献 [6, 7]。AdaBoost 只 
是 用 于 二 类 分 类 ，Schapire 与 Singer 将 它 扩展 到 多 类 分 类 问题 回 。AdaBoost 与 逻辑 
斯 详 回 归 的 关系 也 有 相关 研究 加。 


| 
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5o A 


81 某 公司 招聘 职员 考查 身体 、 业务 能 力 、 发 展 潜力 这 3 项 。 身体 分 为 合格 1、 


不 合格 0 两 级 ,业务 能 力 和 发 展 潜力 分 为 上 1、 中 2、 下 3 三 级 。 分 类 为 合格 1、 不 
合格 -1 两 类 。 已 知 10 个 人 的 数据 ,如 表 8.5 所 示 。 假设 弱 分 类 器 为 决策 树桩 。 试 用 
AdaBoost 算法 学 习 一 个 强 分 类 器 。 


R85 ”应 聘 人 员 情 况 数据 表 


1 2 3 4 5 6 7 8 9 10 

身体 0 0 1 1 1 0 lL 1 1 0 
业务 能 力 1 3 2 1 2 1 1 1 3 2 
发 展 潜力 3 1 2 3 3 2 2 1 1 1 
分 类 -1 -1 一 1 一 1 一 1 一 1 1 1 -1 1 


8.2 ”比较 支持 向 量 机 、AdaBoost、 风 辑 斯 谤 回归 模型 的 学 习 策 略 与 算法 。 
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第 9 章 EM 算法 及 其 推广 


EM 算法 是 一 种 迭代 算法 ，1977 年 由 Dempster 等 人 总 结 提出 , 用 于 含有 隐 变 
量 Chidden variable) 的 概率 模型 参数 的 极 大 似 然 估 计 , 或 极 大 后 验 概率 估计 。EM 算法 
的 每 次 迭代 由 两 步 组 成 : E 步 , 求 期 望 (expectation) ; M 步 , REK (maximization) 。 
所 以 这 一 算法 称 为 期 望 极 大 算法 (expectation maximization algorithm) ,简称 EM 算 
法 。 本 章 首先 叙述 EM 算法 , 然后 讨论 EM 算法 的 收敛 性 ; 作为 EM 算法 的 应 用 , 介绍 
高 斯 混合 模型 的 学 习 ; 最 后 叙述 EM 算法 的 推广 一 一 GEM 算法 。 


9.1 EM 算法 的 引入 


概率 模型 有 时 既 含 有 观测 变量 (observable variable) ,又 含有 隐 变 量 或 潜在 变 
Æ (latent variable) 。 如 果 概 率 模型 的 变量 都 是 观测 变量 , 那么 给 定数 据 , 可 以 直接 用 
极 大 似 然 估 计 法 , 或 贝 叶 斯 估计 法 估计 模型 参数 。 但 是 , 当 模 型 含有 隐 变 量 时 , 就 不 能 
简单 地 使 用 这 些 估 计 方 法 。EM 算法 就 是 含有 隐 变 量 的 概率 模型 参数 的 极 大 似 然 估 计 
法 , 或 极 大 后 验 概率 估计 法 。 我 们 仅 讨论 极 大 似 然 估 计 , 极 大 后 验 概率 估计 与 其 类 似 。 


9.1.1 EM 算法 


首先 介绍 一 个 使 用 EM 算法 的 例子 。 

例 9.1 (三 硬币 模型 假设 有 3 枚 硬币 , 分 别 记 作 A, B, Ce 这 些 硬币 正面 出 现 
的 概率 分 别 是 r, p 和 g。 进行 如 下 拂 硬币 试验 : 先 掷 硬币 A, 根据 其 结果 选 出 硬币 B 
或 硬币 C, 正面 选 硬 币 B, 反面 选 硬 币 C; 然后 掷 选 出 的 硬币 ， 掷 硬币 的 结果 ,出 现 正 
面 记 作 1， 出 现 反 面 记 作 0; 独立 地 重复 n 次 试验 (这里, n = 10), 观测 结果 如 下 : 


I, 1,,0,1,0;0;1,0,1,.1 


BRR REM BURR TH AR, ANE LU GT SL Ae Pa fal eh} = BE TE i HB 
的 概率 ,， 即 三 硬币 模型 的 参数 。 
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解 三 硬币 模型 可 以 写作 
P(yl@) = >》 Ply, 219) = 》 P(z|0)P(yl|z,0) 
= wi =p)! + a —m)q¥(1— 4) (9.1) 
这 里 ， 随 机 变量 y 是 观测 变量 , 表示 一 次 试验 观测 的 结果 是 1 或 0; 随机 变量 z 是 隐 


这 
变量 , 表示 未 观测 到 的 掷 硬币 A 的 结果 ; 9 = (7,p,g) 是 模型 参数 。 这 一 模型 是 以 上 数 
据 的 生成 模型 。 注意 , 随机 变量 y 的 数据 可 以 观测 , 随机 变量 z 的 数据 不 可 观测 。 


将 观测 数据 表示 为 Y= (Y1, Yo,-+-) YY) 了 ,未 观测 数据 表示 为 Z=(21, 22,…, Zn)? 
则 观测 数据 的 似 然 函 数 为 


P(Y|0) = X P(Z|6)P(Y|Z, 6) (9.2) 
Z 
即 a 
P(YI0) = [ip 0 - p) + 0- a) 0) (9.3) 


考虑 求 模型 参数 9 = (7,p,q) 的 极 大 似 然 估计 ， 即 


6=arg max log P(Y |0) (9.4) 


这 个 问题 没有 解析 解 ， 只 有 通过 和 迭代 的 方法 求解 。EM 算法 就 是 可 以 用 于 求解 这 
个 问题 的 一 种 迭代 算法 。 下面 给 出 针对 以 上 问题 的 EM 算法 , 其 推导 过 程 省 略 。 


EM 算法 首先 选取 参数 的 初 值 ， 记 作 OO = (r, pO, q0), 然后 通过 下 面 的 
BRIER HS RN, 直至 收敛 为 止 。 第 i 次 迭代 参数 的 估计 值 为 6% = 
(r, p,q). EM 算法 的 第 i+1 次 迭代 如 下 。 


ES: 计算 在 模型 参数 7 中 ,p 中 gl) 下 观测 数据 y; KARET B 的 概率 


(i+1) TO (py (1 — pO)! 
Hj = FOO" pO rN a 


(9.5) 


M 步 : 计算 模型 参数 的 新 估计 值 


fe he 
+1) _ (i+1) 
it) ae zH (9.6) 
j= 
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n 
> uy; 
porn) =- 二 一 一 (9.7) 
Tila 
j=l 
n 
So a)y 
q = E (9.8) 
> (1 pity) 
j=l 


进行 数值 计算 。 假设 模型 参数 的 初 值 取 为 
T(0) =0.5, p® =0.5, g® = 0.5 


由 式 9.5), 对 yj = 1 5 y =0 WA uw = 0.5。 
利用 迭代 公式 (9.6) ~ 283k (9.8), 得 到 


mr) =0.5, p® =0.6, q®™ = 0.6 


由 式 (9.5)， 
uw?) =0.5, j=1,2,.…,10 


继续 迭代 , 得 
7) =0.5, gat yan 


于 是 得 到 模型 参数 9 的 极 大 似 然 估计 : 


#=0.5, p=06, 0= 0.6 


7 二 0.5 表示 硬币 A 是 均匀 的 , 这 一 结果 容易 理解 。 

如 果 取 初 值 r(0) = 0.4, pO = 0.6, g(0) = 0.7, 那么 得 到 的 模型 参数 的 极 大 似 然 
估计 是 齐 = 0.4064, 方 = 0.5368, 9 = 0.6432。 这 就 是 说 , EM 算法 与 初 值 的 选择 有 关 ， 
选择 不 同 的 初 值 可 能 得 到 不 同 的 参数 估计 值 。 图 

般 地 , HY 表示 观测 随机 变量 的 数据 ，2 表示 隐 随 机 变量 的 数据 .了 和 2 连 
在 一 起 称 为 完全 数据 (complete-data) ， 观 测 数 据 Y 又 称 为 不 完全 数据 (incomplete- 
data) 。 假 设 给 定 观测 数据 王 ， 其 概率 分 布 是 P(Y|9), 其 中 9 是 需要 估计 的 模型 参数 ， 
那么 不 完全 数据 Y 的 似 然 函数 是 P(Y|9)， 对 数 似 然 函数 L(0) = log P(Y|0); 假设 下 
和 Z 的 联合 概率 分 布 是 P(Y, 2|0)， 那 么 完全 数据 的 对 数 似 然 函数 是 log P(Y, 210)。 
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EM 算法 通过 和 友 代 求 L(9) = log P(Y |0) 的 极 大 似 然 估计 。 每 次 迭代 包含 两 步 : E 
步 , 求 期 望 , M 步 , 求 极 大 化 。 下面 来 介绍 EM 算法 。 

算法 9.1 (EM 算法 ) 

输入 : 观测 变量 数据 Y, 隐 变 量 数据 Z, 联合 分 布 P(Y, Z|0), 条 件 分 布 P(ZIY, 0); 

输出 : 模型 参数 0。 

(1) 选择 参数 的 初 值 90)， 开始 迭代 ，; 

(2) EB: WoO 为 第 i 次 迭代 参数 9 的 估计 值 , 在 第 i 十 1 次 迭代 的 也 步 , 计算 


Q(0,0) = Ezllog P(Y, 2|0)|Y, 0] 


= So log P(Y, 2|0)P(ZIY, 0) (9.9) 
Zz 


XE, P(Z|Y,0©) 是 在 给 定 观测 数据 Y 和 当前 的 参数 估计 OO 下 隐 变 量 数据 2 的 条 
件 概率 分 布 ; 
(3) M 步 : RKE QO, 0O) 极 大 化 的 0, 确定 第 i+ 1 次 迭代 的 参数 的 估计 值 64+31) 


0+) = arg max Q(0, bG)) (9.10) 


(4) 重复 第 (2) 步 和 第 (3) 步 , 直到 收敛 。 a 
式 (9.9) 的 函数 Q(0,0) 是 EM 算法 的 核心 , WA Q 函数 (Q function) 。 
定义 9.1 (Q@ BR) ”完全 数据 的 对 数 似 然 函数 log P(Y, 210) 关于 在 给 定 观测 数 
HEY 和 当前 参数 0(i) 下 对 未 观测 数据 Z 的 条 件 概 率 分 布 P(Z|Y,0O) 的 期 望 称 为 @ 
Hak, Bp 
Q(0,0) = Ezllog P(Y, 2|0)|Y, 0] (9.11) 


下 面 关 于 EM 算法 作 几 点 说 明 : 

步骤 (1) ”参数 的 初 值 可 以 任意 选择 , 但 需 注意 EM 算法 对 初 值 是 敏感 的 。 

步骤 (2) EBRQ0,0). Q RARP 2 是 未 观测 数据 , Y 是 观测 数据 。 注 
T, QO, 0O) 的 第 1 个 变 元 表示 要 极 大 化 的 参数 , 第 2 个 变 元 表示 参数 的 当前 估计 
值 。 每 次 迭代 实际 在 求 Q 函数 及 其 极 大 。 

步骤 (3) M 步 求 @(0,6@) 的 极 大 化 , 得 到 4+0， 完 成 一 次 迭代 0 一 0G, 
后 面 将 证 明 每 次 迭代 使 似 然 函 数 增 大 或 达到 局 部 极 值 。 

步骤 (4) 给 出 停止 迭代 的 条 件 ,一 般 是 对 较 小 的 正 数 sis， 若 满足 


a) — 9) <e 或 QS, 6) — QOP, 0) < ez 


TUE IEEE. 


9.1 EM 算法 的 引入 179 


9.1.2 EM 算法 的 导出 


上 上面 叙 述 了 EM 算法 。 为 什么 EM 算法 能 近似 实现 对 观测 数据 的 极 大 似 然 估计 
呢 ? 下 面 通 过 近似 求解 观测 数据 的 对 数 似 然 函数 的 极 大 化 问题 来 导出 EM 算法 ,由 此 
可 以 清楚 地 看 出 EM 算法 的 作用 。 

我 们 面 对 一 个 含有 隐 变 量 的 概率 模型 ,目标 是 极 大 化 观测 数据 (不 完全 数据 )Y 
关于 参数 9 的 对 数 似 然 函数 , 即 极 大 化 


L(0) = log P(Y |0) = log > P(Y, 210) 
Z 
= log (= P(Y|Z, rzw) (9.12) 
Z 


注意 到 这 一 极 大 化 的 主要 困难 是 式 (9.12) 中 有 未 观测 数据 并 有 包含 和 (或 积分 ) 的 
FKE, EM 算法 是 通过 和 迭代 逐步 近似 极 大 化 L(9) 的 。 假设 在 第 i 次 迭代 后 9 的 
估计 值 是 9 中 。 我 们 希望 新 估计 值 9 能 使 L(9) 增加 , BILO) > LOO), 并 逐步 达到 极 
KE. 为 此 , 考虑 两 者 的 差 : 


L(0) — L(0®) = log (= P(Y|Z, Pca) — log P(Y |60®) 
Z 


利用 Jensen 不 等 式 (Jensen inequality) OHAJ FF: 

P(Y|Z,0)P(Z10) 
PZY, 00) 

P(Y|Z,0)P(Z|0) 
P(Z|Y, 0M) 
P(Y|Z, 6)P(Z\8) 


L(6) — L(6) = log bs P(Z|Y,0) ) — log P(Y |0®) 
Z 


> 》 P(ZIY, 0®) log — log P(Y |0®) 
Z 


= G) A 
= PEO) og By, ot) POAT) 
s P(Y|Z,0)P(Z|0) 
(a (i) (i) Miek. ail a ar me a 
B(6,0)=L(8 Je La ) log PZE IPY) (9.13) 
则 
L(0) > B(6,0) (9.14) 


© REMEE log) Ajyj > Die A; logy; HP A; > 0, = dg ext. 
了 


了 了 
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即 函数 B(O,0) 是 L(9) 的 一 个 下 界 , 而 且 由 式 (9.13) 可 知 ， 
Lo) = B®, a) (9.15) 


因此 , 任何 可 以 使 BO, 0) 增 大 的 0, 也 可 以 使 L(9) 增 大 。 为 了 使 了 (0) 有 尽 可 能 大 
的 增长 , 选择 OY) 使 B0, 00) KERAK, B 


0) = arg max B(O, 0) (9.16) 


现在 求 C+) 的 表达 式 。 省 去 对 9 的 极 大 化 而 言 是 常数 的 项 ， 由 式 (9.16). xb (9.13) 
及 式 (9.10), 有 


(i+1) (i) (i) pees eee en ed a 
0 arg max 区 YF > P(ZIY,0) log ; A 5545 aco 


= arg max (Ea Z\Y,0) log(P(Y |Z, orca) 
Z 


= arg max (= P(Z|Y,0) log P(Y, z9) 
Z 


= arg max Q(0, 0 )) (9.17) 


式 (9.17) 等 价 于 EM 算法 的 一 次 迭代 , 即 求 Q 函数 及 其 极 大 化 。EM 算法 是 通过 
不 断 求解 下 界 的 极 大 化 逼近 求解 对 数 似 然 函 数 极 大 化 的 算法 。 

图 9.1 给 出 EM 算法 的 直观 解释 。 图 中 上 方 曲线 为 二 (0), 下 方 曲线 为 B(O,0). H 
式 (9.14), B(O,0) 为 对 数 似 然 函数 工 (6) 的 下 界 。 由 式 (9.15), 两 个 函数 在 点 9 = 0 


LO 
Lo») 
BO! DAO) 


LO)=BO.0” 


BOM”) 


S 


gO gD 
图 9.1 EM 算法 的 解释 


9.2 EM 算法 的 收敛 性 181 


处 相等 。 由 式 (9.16) 和 式 (9.17), EM 算法 找到 下 一 个 点 OCD 使 函数 B0, 0®) BK 
化 ,也 使 函数 Q(0,0) 极 大 化 。 这 时 由 于 L(9) > B(9,0 中 ), 函数 B(O,E) 的 增加 ， 
保证 对 数 似 然 函数 L(9) 在 每 次 迭代 中 也 是 增加 的 ,。 EM SE OOD) 重新 计算 Q 
函数 值 ,进行 下 一 次 迭代 。 在 这 个 过 程 中 , 对 数 似 然 函 数 LO) 不 断 增 大 。 从 图 可 以 推 
断 出 EM 算法 不 能 保证 找到 全 局 最 优 值 。 


9.1.3 EM 算法 在 无 监督 学 习 中 的 应 用 


监督 学 习 是 由 训练 数据 {(zi,ga), (z2,y2),… (en yn) } 学 习 条 件 概率 分 布 
P(Y|X) 或 决策 函数 了 = f(X) 作为 模型 ,用 于 分 类 、 回 归 、 标 注 等 任务 。 这 时 
训练 数据 中 的 每 个 样本 点 由 输入 和 输出 对 组 成 。 

有 时 训练 数据 只 有 输入 没有 对 应 的 输出 {(zi，。), (2, 。)，…… lEn e)p MAE 
的 数据 学 习 模型 称 为 无 监督 学 习 问题 , EM 算法 可 以 用 于 生成 模型 的 无 监督 学 习 。 生 
成 模型 由 联合 概率 分 布 P(X,Y) 表示 , 可 以 认为 无 监督 学 习 训练 数据 是 联合 概率 分 布 
产生 的 数据 。X 为 观测 数据 , Y 为 未 观测 数据 。 


9.2 EM 算法 的 收敛 性 


EM 算法 提供 一 种 近似 计算 含有 隐 变 量 概率 模型 的 极 大 似 然 估 计 的 方法 。EM 算 法 
的 最 大 优点 是 简单 性 和 普 适 性 。 我 们 很 自然 地 要 问 : EM 算法 得 到 的 估计 序列 是 否 收 
BC? 如 果 收 敛 , 是 否 收敛 到 全 局 最 大 值 或 局 部 极 大 值 ? 下 面 给 出 关于 EM 算法 收敛 性 
的 两 个 定理 。 

定理 9.1 设 P(Y|0) AMMA WA BH, OO =1,2,---) 为 EM 算法 得 到 
的 参数 估计 序列 ，P(Y|6G)(i = 1,2,---) 为 对 应 的 似 然 函数 序列 ， 则 PYM) 是 单 
调 递增 的 ， 即 


P(Ylec+D) > P(YI0®) (9.18) 
ae oie P(Y, 2|0) 
PO) = F(a 0 
取 对 数 有 
log P(Y |0) = log P(Y, 2|0) — log P(Z|Y, 0) 
jx (9.11) 


Q(0,0) = > log P(Y, Z|0)P(ZIY, 0) 
Zz 
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令 
H(0,0) = >》 log P(Z|Y, 0) P(Z|Y, 0) 9.19) 
Z 
于 是 对 数 似 然 函数 可 以 写成 
log P(Y |0) = Q(0,0®) — H(0,0) (9.20) 


在 式 (9.20) 中 分 别 取 9 A 0O 和 oC) 并 相 减 , 有 


log P(Y 0) — log P(Y |) 
= [QOD 0) — Q(0, 0] — [H (06+, 0) — H(6,6)| (9.21) 


为 证 式 (9.18)， 只 需 证 式 (9.21) 右 端 是 非 负 的 。 式 (9.21) 右 端的 第 1 项 ， 由 于 
AD KE Q(0,0) 达到 极 大 , 所 以 有 


Q(0, 0) — QH, 0) >0 (9.22) 


其 第 2 项 , 由 式 (9.19) 可 得 : 


(Z|Y, 0(it+1) ) 
P(Z|Y, 00) 


(ZIY, ott PZIY,0CY) p 
< P(Z\Y, 0) P(Z|Y, 0° ») 
Z 


这 里 的 不 等 号 由 Jensen 不 等 式 得 到 。 
由 式 (9.22) 和 式 (9.23) 即 知 式 (9.21) 右 端 是 非 负 的 。 国 
定理 9.2 GK L(0) = log P(Y|0) 为 观测 数据 的 对 数 似 然 函数 ，0(?)(i =1,2,---) 
为 EM 算法 得 到 的 参数 估计 序列 ，L(9 中 )(i =1,2,---) 为 对 应 的 对 数 似 然 函数 序列 。 
(1) 如 果 P(Y|0) AER, 则 LO) = log P(Y|6G) 收 化 到 某 一 值 L*; 
(2) 在 函数 Q(9,0') 5 L0) 满足 一 定 条 件 下 ， 由 EM 算法 得 到 的 参数 估计 序列 
OO 的 收敛 值 0* 是 工 (9) 的 稳定 点 。 
证 明 (1) H L(0) = log P(Y 0) 的 单调 性 及 P(Y|0) 的 有 界 性 立即 得 到 。 
(2) 证 明 从 略 ,参阅 文献 加 。 a 


HO), 9) — 1/9, 9) = => (toe 
Z 


) P(Z|Y,0®) 
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定理 9.2 关于 函数 QO, 0) 5 LO) 的 条 件 在 大 多 数 情况 下 都 是 满足 的 。EM 算法 
的 收敛 性 包含 关于 对 数 似 然 函数 序列 LOO) 的 收敛 性 和 关于 参数 估计 序列 OO 的 收 
敛 性 两 层 意思 , 前 者 并 不 蕴涵 后 者 。 此外, 定理 只 能 保证 参数 估计 序列 收敛 到 对 数 似 
然 函 数 序 列 的 稳定 点 , 不 能 保证 收敛 到 极 大 值 点 。 所 以 在 应 用 中 , 初 值 的 选择 变 得 非 
常 重要 ,常用 的 办 法 是 选取 几 个 不 同 的 初 值 进行 迭代 , 然后 对 得 到 的 各 个 估计 值 加 以 
比较 ， 从 中 选择 最 好 的 。 


9.3 EM 算法 在 高 斯 混合 模型 学 习 中 的 应 用 


EM 算法 的 一 个 重要 应 用 是 高 斯 混合 模型 的 参数 估计 。 高 斯 混合 模型 应 用 广泛 ， 
在 许多 情况 下 ， uals gp (Gaussian mixture model) 的 有 效 
方法 。 


9.3.1 高 斯 混合 模型 
定义 9.2 (高 斯 混合 模型 ) 高 斯 混合 模型 是 指 具有 如 下 形式 的 概率 分 布 模型 : 


P(y\9) = Sasal (9.24) 


K 
其 中 ， Qk 是 系数 ， Qk > 0, So ax =1; O(y|Ox) 是 高 斯 分 布 密度 ， 0k = (uk, o2) 


k=1 


_ ,2 
bt) = e— exp (- 7E) (9.25) 


AAR k 个 分 模型 。 
一 般 混合 模型 可 以 由 任意 概率 分 布 密度 代替 式 (9.25) 中 的 高 斯 分 布 密度 , 我 们 只 
介绍 最 常用 的 高 斯 混合 模型 。 


9.3.2 ”高 斯 混合 模型 参数 估计 的 EM 算法 
假设 观测 数据 ,yz,… ,yw 由 高 斯 混合 模型 生成， 


P(y|0) = 5 ax6(yl|Ox) (9.26) 


k=1 
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其 中 ， = (a4, ao 50% 591,02,-°- ,0k)。 我 们 用 EM 算法 估计 高 斯 混合 模型 的 


参数 0。 
1. 明确 隐 变 量 ， 写 出 完全 数据 的 对 数 似 然 函数 


可 以 设想 观测 数据 yj j = 1,2,… N, 是 这 样 产生 的 : 首先 依 概率 ak 选择 第 
个 高 斯 分 布 分 模型 p(y|9), 然后 依 第 k 个 分 模型 的 概率 分 布 p(y|9k) 生成 观测 数据 


yj。 这 时 观测 数据 yj j =1,2,---,N, 是 已 知 的 ; 反映 观测 数据 yj 来 
型 的 数据 是 未 知 的 , 大 = 1,2,… ,KK， 以 隐 变 量 yr 表示, 其 定义 如 下 : 


1, 第 7 个 观测 来 自 第 天 个 分 模型 
Ti = 
0, 否则 

j=1,2,N; k=1,2,---,K 


jk 是 0-1 随机 变量 。 
有 了 观测 数据 y; 及 未 观测 数据 Yj， 那么 完全 数据 是 


(U5 Vyas tiz NK) J =1,2,---,N 


于 是 , 可 以 写 出 完全 数据 的 似 然 函 数 : 


N 
P(y, 10) = [I Pti Y2 = trlo) 
j=l 


= | Il [a(y5|9%.)]* 


k=1 j=1 


ae 


N 
akt [i00 
N 


1 (yy — mr) 
Nk — 43 
i lI — Sp ( 207 


=1 


> 
Il 
fan 
m 


> 


fo 
Il 
= 

& 


N K 
tH, Nk = > Ti Sone =N。 
j=l k=1 


么 ， 完 全 数据 的 对 数 似 然 函 数 为 


第 大 个 分 模 


(9.27) 


K N 
T 1 
log P(y, 7|0) = 5 fa logak + Dr lioz (=) log ok 352 (yj 
k 


k=1 jt 


m)| | 
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2. EM 算法 的 E 步 : 确定 8 函数 


Q(0,0) = Ellog Ply, 719)|y, 0] 
N 


=E > ng logar +Y jk hoe ( 1 ) log ok Li mm) 
k=l j= vin 20% 


j=l 


K N 1 
=> 4 AE TY (Ern) [loe( =) - logon = soa) -m| 


j=1 j=1 


(9.28) 


这 里 需要 计算 Elyjkly, 0) A jke 


jx = E(Yxrly,0) = Prix = 1y, 9) 


= Pik = 1, ysl) 
— E 


> Plax = 1, v10) 
_ Pwr = 1,0) P(n = 110) 
pl = 1,0)P(Y;x = 1/0) 
il 的) 


， 了 = 站 2 Ni k=1,2,---,K 
> akxg(jjlbk) 
k=1 


yn 是 在 当前 模型 参数 下 第 j 个 观测 数据 来 自 第 k 个 分 模型 的 概率 ， 称 为 分 模型 对 
观测 数据 yy 的 响应 度 。 


N 
Ki Age = Byjk 及 nk = 》 Erie 代入 式 (9.28), 即 得 


j=l 


K N 
: 、 1 1 
Q(0,0) => fn log ak + Dn [oe (=) — logok 一 Daz (yj — oo | 


k=1 j=l 


(9.29) 


3. 确定 EM 算法 的 M 步 
和 迭代 的 M 步 是 求 函数 QO, 0M) 对 9 的 极 大 值 ， 即 求 新 一 轮 欠 代 的 模型 参数 : 


0) ~ arg max Q(8, g) 
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Hf) 


J Âk» 62 及 âr k = 1,2,- , K, RR OGD 的 各 参数 。 求 Ar ô? 只 需 将 
K 


式 (9.29) 分 别 对 Jw，o? 求 偏 导数 并 令 其 为 0, 即 可 得 到 ; R âr 是 在 》 ax = 1 条 件 
下 求 偏 导 数 并 令 其 为 0 得 到 的 。 结 果 如 下 : 


= x , k=1,2,---,K 
Dx 
j=l 
N 
> te 
dy = = 二 , k=1,2,°,K 


重复 以 上 计算 , 直到 对 数 似 然 函数 值 不 再 有 明显 的 变化 为 止 。 
现 将 估计 高 斯 混合 模型 参数 的 EM 算法 总 结 如 下 。 

算法 9.2 (高 斯 混合 模型 参数 估计 的 EM 算法 ) 

输入 : 观测 数据 yi, yo. ,yw， 高 斯 混合 模型 ; 

输出 : 高 斯 混合 模型 参数 。 

D 取 参 数 的 初始 值 开始 迭代 ; 


(DED: 依据 当前 模型 参数 , 计算 分 模型 对 观测 数据 y; 的 响应 度 


QnrG (YjlOk) 


k= ,j=b2 NN; k=1,2,.. 
> ax 9(ys|%) 
k=1 
(MH: 计算 新 一 轮 迭 代 的 模型 参数 
N 
Y jryi 
j=l 


k=1 


(9.30) 


(9.31) 


(9.32) 
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Dhr (ys — ve)? 
名 = 一 ;= 

S iir 
j=1 
N 
Sta 

de =, b= 1,2, K 

(4) 重复 第 (2) 步 和 第 (3) 步 , 直到 收敛 。 E 


9.4 ”EM 算法 的 推广 


EM 算法 还 可 以 解释 为 下 函数 CF function) 的 极 大 - 极 大 算法 Cmaximization- 
maximization algorithm) ,基于 这 个 解释 有 若干 变形 与 推广 ， 如 广义 期 望 极 大 
(generalized expectation maximization, GEM) 算法 。 下面 予 以 介绍 。 


9.4.1 F 济 数 的 极 大 - 极 大 算法 


首先 引进 F 函数 并 讨论 其 性 质 。 
定义 9.3 (F BR) ”假设 隐 变 量 数据 Z 的 概率 分 布 为 P(Z), 定义 分 布 P 5A 
数 的 函数 F(P, 0) 如 下 : 


F(P,0) = Esllog P(Y, Z|6)] + H(P) (9.33) 


称 为 F 函数 。 式 中 H(P) = —Eplog P(Z) RPA P(Z) ti. 

在 定义 9.3 中 , 通常 假设 PY, Zo) 是 9 的 连续 函数 , 因而 F(P,0) Æ P Ale 的 
连续 函数 。 函数 FF(P,0) 还 有 以 下 重要 性 质 。 

引 理 9.1 对 于 固定 的 90， 存 在 唯一 的 分 布 Py 极 大 化 F(P,O), 这 时 Py HEX 
给 出 : 


Po(Z) = P(Z|Y, 0) (9.34) 


并 且 Po 随 0 连续 变化 。 
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证 明 ”对 于 固定 的 9, 可 以 求 得 使 (P,9) 达到 极 大 的 分 布 PZ) 为 此 ,引进 拉 
格 朗 日 乘 子 和 , 拉 格 朗 日 函数 为 


L = Eplog P(Y, Z|9) — Ep log P(Z) + A (: -5 Pa) (9.35) 
Z 
将 其 对 巨 求 偏 导 数 : 
PD = log P(Y, Z|0) — log P(Z) — 1 — À 


令 偏 导数 等 于 0, 得 出 
A=1logP(Y,2|0) — log Py(2Z)—1 
由 此 推出 Po(Z) 与 P(Y, Z|0) 成 比例 


P(Y, ZO) _ ta 
Po(Z) 


再 从 约束 条 件 S P (Z) = 1 得 式 (9.34). 


Zz 
由 假设 P(Y, Z|0) 是 9 的 连续 函数 , 得 到 Py 是 9 的 连续 函数 。 E 
31 9.2 # P (Z) = P(ZIY,0), 2 


F(P,0) = log P(Y |0) (9.36) 


证 明 作为 习题 ， 留 给 读者 。 
以 上 引 理 , 可 以 得 到 关于 EM 算法 用 F 函数 的 极 大 - 极 大 算法 的 解释 。 
定理 9.3 7K L(0) = logP(Y|0) 为 观测 数据 的 对 数 似 然 函数 ，0(?), i = 1,2,…， 
为 EM 算法 得 到 的 参数 估计 序列 ， 函 数 F(P,O) BA (9.33) 定义 。 如果 F(P,0) # P* 
和 0* 有 局 部 极 大 值 ,那么 L0) 也 在 0* 有 局 部 极 大 值 。 类似 地 ， 如 果 F(P,O) 在 P 
和 0* 达到 全 局 最 大 值 , 那么 LO) 也 在 O* 达到 全 局 最 大 值 。 

证 明 由 引 理 9.1 和 引 理 9.2 可 知 , L(0) = log P(Y |0) = (Py,9) 对 任意 09 成 立 。 
特别 地 ,对 于 使 F(P, 0) 达到 极 大 的 参数 9*， 有 


L(6") = F(Po-,0") = F(P*,6") (9.37) 


为 了 证 明 9* FE L(0) 的 极 大 点 , 需要 证 明 不 存在 接近 0* 的 点 0**， 使 了 > L(0*). 
假如 存在 这 样 的 点 0**, 那么 应 有 F(P**,0**) > F(P*,0*), 这 里 P** = > {AB Po 
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是 随 9 连续 变化 的 ，P** 应 接近 Pt, 这 与 Pt 和 0* 是 F(P,0) 的 局 部 极 大 点 的 假设 
矛盾 。 

类 似 可 以 证 明 关 于 全 局 最 大 值 的 结论 。 图 

定理 9.4 EM 算法 的 一 次 迭代 可 由 F 函数 的 极 大 - 极 大 算法 实现 。 

KOO 为 第 i KERAK O Ht, PO 为 第 i kkhk P 的 估计 。 在 第 i 十 1 
次 迭代 的 两 步 为 : 

(1 ) 对 固定 的 9), R POD 使 F(P,OO) BAR; 

(2 ) 对 固定 的 PP(i+D), ROY 使 FPF(P(i+D),0) 极 大 化 。 

证 明 (1) 由 引 理 9.1, 对 于 固定 的 0G) ， 


POH (zZ) a Ëo (Z) = P(ZIY, 6) 
ME F(P,0O) 极 大 化 。 此 时 ， 


F(PO, 0) = 已 petb[logP( 隐 29)] + H(PO) 
= > log P(Y, Z|0)P(Z|¥, 0) + H(POY) 


Z 

由 Q(0,0) 的 定义 式 (9.11) 有 
FUBG+D,b) = Q(0,0) + (POY) 
(2) 固定 POD, sk OD 使 FPO), 6) 极 大 化 。 得 到 


0) = arg max F(P@) 0) = arg max Q(0,0) 


通过 以 上 两 步 完成 了 EM 算法 的 一 次 迭代 。 由 此 可 知 , 由 EM 算法 与 函数 的 极 大 - 极 
大 算法 得 到 的 参数 估计 序列 OO, i = 1,2,…， 是 一 致 的 。 a 
这 样 , 就 有 EM 算法 的 推广 。 


9.4.2 GEM 算法 


算法 9.3 (GEM 算法 1) 

输入 : 观测 数据 , 玉 函数 ; 

输出 : 模型 参数 。 

CL) 初始 化 参数 OO, FERIA; 

(2) Biti 次 迭代 , 第 1 步 : Wo 为 参数 9 的 估计 值 ， PQ@ 为 函数 P 的 估计 ， 
POY) 使 户 极 大 化 F(P,00)); 
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(3) 第 2 步 : KOS) fe P(POY, 6) 极 大 化 ; 
(4) 重复 (2) 和 (3)， 直 到 收敛 。 E 
E GEM 算 法 1 中 , 有 时 求 Q(0,0) 的 极 大 化 是 很 困难 的 。 下 面 介绍 的 GEM 算 
法 2 和 GEM 算 法 3 并 不 是 直接 求 9(+D (8 Q(0,0) 达到 极 大 的 9, 而 是 找 一 个 
+1) 使 得 Q(OG+1 ,0G) > Q(0®, 0%). 

算法 9.4 (GEM 算法 2) 

输入 : 观测 数据 ，Q@ 函数 ; 

(1) WEBB OO, FURIE: 

(2) Hit 1 次 迭代 , 第 1 步 : io 为 参数 9 的 估计 值 , 计算 


Q(0,0®) = Ezllog P(Y, 2|0)|Y, 0] 


= > P(Z|Y,0) log P(Y, 210) 
Z 


(3) 第 2 步 : OG) 使 


QUED, 8) > QOP, 0) 


(4) 重复 (2) 和 (3), 直到 收敛 。 国 

当 参 数 0 的 维 数 为 d (qd > 2) 时 , 可 采用 一 种 特殊 的 GEM 算 法 , 它 将 EM 算法 的 
M 步 分 解 为 d 次 条 件 极 大 化 , 每 次 只 改变 参数 向 量 的 一 个 分 量 , 其余 分 量 不 改变 。 

算法 9.5 (GEM 算法 3) 

输入 : 观测 数据 ,，Q 函数 ; 

输出 : 模型 参数 。 

(1) 初始 化 参数 OO = (0) 0... 0), FRB: 

(2) Pit 次 迭代 , 第 1 步 : 记 0G =(0 0, ...,6) 为 参数 9=(01,02,…, 94) 
的 估计 值 ， 计 算 


Q(0, 0) = Ezllog P(Y, 2|0)|Y, 0] 
= > P(Z|y, 0®) log P(Y, Z|6) 


Z 
(3) 第 2 步 : 进行 d 次 条 件 极 大 化 : 
首先 , 在 0,… 09 保持 不 变 的 条 件 下 求 使 Q@(b,bG) 达到 极 大 的 OCT); 
Ri 20, =O, 0; = 0, j = 3,4,… ,d AEE PRE Q(0,0) 达到 极 大 
的 et), 
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如 此 继续 , 经 过 d 次 条 件 极 大 化 , 得 到 OCD = CD) OGD... ASD) 使 得 


Q(t), 6) > Qo, 9) 


(4) 重复 (2) 和 (3), 直到 收敛 。 E 


本 章 概 要 


1. EM 算法 是 含有 隐 变 量 的 概率 模型 极 大 似 然 估计 或 极 大 后 验 概率 估计 的 迭代 算 
法 。 含有 隐 变 量 的 概率 模型 的 数据 表示 为 P(Y, Z|0). 这 里 , Y 是 观测 变量 的 数据 ，2 
是 隐 变 量 的 数据 ,9 是 模型 参数 。EM 算 法 通过 和 迭代 求解 观测 数据 的 对 数 似 然 函 数 
L(0) = log P(Y |0) 的 极 大 化 , 实现 极 大 似 然 估 计 。 每 次 迭代 包括 两 步 : E 步 , 求 期 望 ， 
HSK log P(Y, Z|0) 关于 P(Z|Y,0) 的 期 望 : 


Q(0,0) = > log P(Y, Z|0) P(Z|Y, 0) 
Z 
WN Q 函数 , 这 里 0O 是 参数 的 现 估计 值 ; M 步 , 求 极 大 , 即 极 大 化 Q 函数 得 到 参数 
的 新 估计 值 : 
0) = arg max Q(0,0) 


在 构建 具体 的 EM 算法 时 , 重要 的 是 定义 Q PAB. 每 次 迭代 中 , EM 算法 通过 极 
大 化 Q 函数 来 增 大 对 数 似 然 函数 L(9)。 
2. EM 算法 在 每 次 迭代 后 均 提 高 观测 数据 的 似 然 函数 值 ， 即 


P(Y|0+D) > P(YI0®) 


在 一 般 条 件 下 EM 算法 是 收敛 的 , 但 不 能 保证 收敛 到 全 局 最 优 。 


3. EM 算法 应 用 极其 广泛 , 主要 应 用 于 含有 隐 变 量 的 概率 模型 的 学 习 。 高 斯 混合 
模型 的 参数 估计 是 EM 算法 的 一 个 重要 应 用 ,下 一 章 将 要 介绍 的 隐 马 尔 可 夫 模 型 的 无 
监督 学 习 也 是 EM 算法 的 一 个 重要 应 用 。 

4. EM 算法 还 可 以 解释 为 函数 的 极 大 - 极 大 算法 。 EM 算法 有 许多 变形 ， 如 
GEM 算 法 ,GEM 算法 的 特点 是 每 次 迭代 增加 F 函数 值 (并 不 一 定 是 极 大 化 R 
数 )， 从 而 增加 似 然 函 数值 。 
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继续 阅读 


EM 算法 由 Dempster 等 人 总 结 提出 趾 。 类 似 的 算法 之 前 已 被 提出 ， 如 Baum- 
Welch 算法 , 但 是 都 没有 EM 算法 那么 广泛 .EM 算法 的 介绍 可 参见 文献 [2~4。EM 算 
法 收敛 性 定理 的 有 关 证 明 见 文献 [5]。GEM 是 由 Neal 与 Hinton 提出 的 回 。 


5 


9.1 如 例 9.1 的 三 硬币 模型 。 假 设 观 测 数据 不 变 , 试 选择 不 同 的 初 值 , 例如 , xO = 
0.46, p© = 0.55, q = 0.67, 求 模型 参数 9 = (7,p,g) 的 极 大 似 然 估计 。 
9.2 证 明 引 理 9.2。 


9.3 已 知 观测 数据 -67, —48, 6, 8, 14, 16, 23, 24, 28, 29, 41, 49, 56, 60, 75 
试 估计 两 个 分 量 的 高 斯 混合 模型 的 5 个 参数 。 
9.4 EM 算法 可 以 用 到 朴素 贝 叶 斯 法 的 无 监督 学 习 。 试 写 出 其 算法 。 
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第 10 章 ” 隐 马 尔 可 夫 模 型 


隐 马 尔 可 夫 模 型 (hidden Markov model, HMM) 是 可 用 于 标注 问题 的 统计 学 习 
模型 , 描述 由 隐藏 的 马尔 可 夫 链 随机 生成 观测 序列 的 过 程 , 属于 生成 模型 。 本 章 首先 
介绍 隐 马 尔 可 夫 模 型 的 基本 概念 , 然后 分 别 叙 述 隐 马 尔 可 夫 模 型 的 概率 计算 算法 、 学 
习 算 法 以 及 预测 算法 。 隐 马尔 可 夫 模 型 在 语音 识别 、 自 然 语言 处 理 、 生 物 信息 、 模 式 
识别 等 领域 有 着 广泛 的 应 用 。 


10.1 隐 马 尔 可 夫 模 型 的 基本 概念 


10.1.1 隐 马 尔 可 夫 模 型 的 定义 


定义 10.1( 隐 马尔 可 夫 模 型 ) ” 隐 马 尔 可 夫 模 型 是 关于 时 序 的 概率 模型 ， 描述 由 
一 个 隐藏 的 马尔 可 夫 链 随机 生成 不 可 观测 的 状态 随机 序列 ， 再 由 各 个 状态 生成 一 个 观 
测 从 而 产生 观测 随机 序列 的 过 程 。 隐藏 的 马尔 可 夫 链 随机 生成 的 状态 的 序列 ， 称 为 状 
态 序列 (state sequence); 每 个 状态 生成 一 个 观测 , 而 由 此 产生 的 观测 的 随机 序列 ， 称 
为 观测 序列 (observation sequence ) 。 序列 的 每 一 个 位 置 又 可 以 看 作 是 一 个 时 刻 。 

隐 马 尔 可 夫 模 型 由 初始 概率 分 布 、 状 态 转 移 概率 分 布 以 及 观测 概率 分 布 确定 。 隐 
马尔 可 夫 模 型 的 形式 定义 如 下 : 

BQ 是 所 有 可 能 的 状态 的 集合 , V 是 所 有 可 能 的 观测 的 集合 : 


Q= {gg ,9N}, V = {vi,v2,--- um} 


其 中 , N 是 可 能 的 状态 数 ，M 是 可 能 的 观测 数 。 
I EKER T 的 状态 序列 ，O 是 对 应 的 观测 序列 : 


I= (t1,%2,--- ir), O=(01,02,--- ,or) 


A 是 状态 转移 概率 矩阵 : 
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A= [enw pn (10.1) 
其 中 ， 


aij = Plisti= glit = qi) i=1,2,,N; j=1,2,,N (10.2) 


是 在 时 刻 t 处 于 状态 qi 的 条 件 下 在 时 刻 t 十 1 转移 到 状态 q; 的 概率 。 


B 是 观测 概率 矩阵 : 
B = [b;(k)]yxm (10.3) 


其 中 ， 


bj(k) = P(o = vklis = 95), &=1,2,---,M; j7=1,2,---,N (10.4) 


是 在 时 刻 t 处 于 状态 q; 的 条 件 下 生成 观测 wk 的 概率 。 


7 是 初始 状态 概率 向 量 : 
T= (m) (10.5) 


其 中 ， 


mi= Pii=g), 1=1,2,---,N (10.6) 


是 时 刻 t= 1 处 于 状态 qi 的 概率 。 

隐 马 尔 可 夫 模 型 由 初始 状态 概率 向 量 r、 状 态 转移 概率 矩阵 A 和 观测 概率 矩阵 B 
决定 。 x 和 4 决定 状态 序列 ，B 决定 观测 序列 。 因此 , 隐 马 尔 可 夫 模 型 可 以 用 三 元 
符号 表示 ， 即 


A=(4,B,7) 10.7) 


A, B, 称 为 隐 马 尔 可 夫 模 型 的 三 要 素 。 

状态 转移 概率 和 矩 阵 4 与 初始 状态 概率 向 量 r 确定 了 隐藏 的 马尔 可 夫 链 ， 生 成 不 
可 观测 的 状态 序列 。 观 测 概率 矩阵 B 确定 了 如 何 从 状态 生成 观测 , 与 状态 序列 综合 确 
定 了 如 何 产生 观测 序列 。 

从 定义 可 知 ， 隐 马尔 可 夫 模 型 作 了 两 个 基本 假设 : 

(1) 齐 次 马尔 可 夫 性 假设 , 即 假设 隐藏 的 马尔 可 夫 链 在 任意 时 刻 t 的 状态 只 依赖 
于 其 前 一 时 刻 的 状态 , 与 其 他 时 刻 的 状态 及 观测 无 关 , 也 与 时 刻 t 无 关 : 


P(ig\te-1, Ot-1,°-* ,i1,01) = P(islii-1), t=1,2,.…,T (10.8) 


(2) 观测 独立 性 假设 , 即 假设 任意 时 刻 的 观测 只 依赖 于 该 时 刻 的 马尔 可 夫 链 的 状 
态 , 与 其 他 观测 及 状态 无 关 : 


Pl(osliT, or, ir—1, OT—1, °° 5 t441, Ot+1, 1t, 4-1, Of-1,°** 541,01) = P(oslit) (10.9) 
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隐 马 尔 可 夫 模 型 可 以 用 于 标注 , 这 时 状态 对 应 着 标记 。 标 注 问题 是 给 定 观 测 的 序 
列 预测 其 对 应 的 标记 序列 。 可 以 假设 标注 问题 的 数据 是 由 隐 马 尔 可 夫 模 型 生成 的 。 这 
样 我 们 可 以 利用 隐 马 尔 可 夫 模 型 的 学 习 与 预测 算法 进行 标注 。 

下 面 看 一 个 隐 马 尔 可 夫 模 型 的 例子 。 

例 10.1 (盒子 和 球 模型 ) 假设 有 4 个 盒子 ,每 个 盒子 里 都 装 有 红 、 白 两 种 颜色 
的 球 , 盒子 里 的 红 、 白 球 数 由 表 10.1 列 出 。 


表 10.1 “各 盒子 的 红 、 白 球 数 


a F 
1 2 3 4 
红 球 数 5 3 6 8 
球 数 5 7 4 2 


按照 下 面 的 方法 抽 球 , 产生 一 个 球 的 颜色 的 观测 序列 : 

。 开始 , 从 4 个 盒子 里 以 等 概率 随机 选取 1 个 盒子 , 从 这 个 盒子 里 随机 抽出 1 个 
BR, 记录 其 颜色 后 , 放 回 ; 

。 Wa, 从 当前 盒子 随机 转移 到 下 一 个 盒子 , 规则 是 : 如 果 当 前 盒子 是 盒子 1, 那 
么 下 一 盒子 一 定 是 盒子 2; 如 果 当 前 是 盒子 2 或 3, 那么 分 别 以 概率 0.4 和 0.6 转移 到 
左边 或 右边 的 盒子 ; 如 果 当 前 是 盒子 4, 那么 各 以 0.5 的 概率 停留 在 盒子 4 或 转移 到 
盒子 3; 

。 确定 转移 的 盒子 后 ， 再 从 这 个 盒子 里 随机 抽出 1 SER, 记录 其 颜色 , 放 回 ; 

。 如 此 下 去 , 重复 进行 5 次 , 得 到 一 个 球 的 颜色 的 观测 序列 : 


O = ( 红 , 红 , 白 , É, 红 ) 


在 这 个 过 程 中 , 观察 者 只 能 观测 到 球 的 颜色 的 序列 , 观测 不 到 球 是 从 哪个 盒子 取出 的 ， 
即 观测 不 到 盒子 的 序列 。 
在 这 个 例子 中 有 两 个 随机 序列 , 一 个 是 盒子 的 序列 (状态 序列 ), 一 个 是 球 的 颜色 
的 观测 序列 (观测 序列 )。 前 者 是 隐藏 的 ,只 有 后 者 是 可 观测 的 。 这 是 一 个 隐 马 尔 可 夫 
模型 的 例子 。 根 据 所 给 条 件 ,可 以 明确 状态 集合 、 观 测 集合 、 序 列 长 度 以 及 模型 的 三 
要 素 。 

盒子 对 应 状态 ,状态 的 集合 是 : 


Q={ 盒 子 1, 盒子 2, 盒子 3, 盒子 人， N=4 
球 的 颜色 对 应 观测 。 观测 的 集合 是 : 


T ={H, ġ} M=2 
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状态 序列 和 观测 序列 长 度 了 = 5。 


初始 概率 分 布 为 
m = (0.25, 0.25, 0.25, 0.25)? 
0 1 0 0 
04 0 06 0 
A= 
0 04 0 06 
0 0 05 05 
观测 概率 分 布 为 
0.5 0.5 
0.3 0.7 
B= B 
0.6 0.4 
0.8 0.2 


10.1.2 ”观测 序列 的 生成 过 程 


根据 隐 马 尔 可 夫 模 型 定义 ,可 以 将 一 个 长 度 为 了 的 观测 序列 O = (01, 02,:… , or) 
的 生成 过 程 描述 如 下 o 

算法 10.1 (观测 序列 的 生成 ) 

输入 : 隐 马 尔 可 夫 模 型 和 = (A, B,7), 观测 序列 长 度 工 ; 

输出 : 观测 序列 O = (01, 02,:… ,or)。 

(1) 按照 初始 状态 分 布 r 产生 状态 ts 

(2) 令 t=1; 

(3) 按照 状态 i 的 观测 概率 分 布 bi,(k) 生成 ot; 

(4) RRE i 的 状态 转移 概率 分 布 {airin} PERS itti try = 1,2,… N; 

(5) 令 t=t 十 1; MRt<T, 转 步 (3); 否则 , Aik. 国 


10.1.3 ” 隐 马 尔 可 夫 模 型 的 3 个 基本 问题 


隐 马 尔 可 夫 模 型 有 3 个 基本 问题 : 
(1) 概率 计算 问题 。 给 定 模型 = (A, B, r) 和 观测 序列 O = (01,02,… ,or), 计 
算 在 模型 和 下 观测 序列 O 出 现 的 概率 P(O| 和 )。 
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(2) 学 习 问 题 。 已 知 观测 序列 O = (01, 00,--- ,or), 估计 模型 和 = (A, B,7) 参数 ， 
使 得 在 该 模型 下 观测 序列 概率 P(O| 和 ) 最 大 。 即 用 极 大 似 然 估计 的 方法 估计 参数 。 

(3) 预测 问题 ， 也 称 为 解码 (decoding) 问题 。 已 知 模型 A = (A, B, m) 和 观测 
序列 O = (01,02,… ,or)， 求 对 给 定 观测 序列 条 件 概率 POIO) 最 大 的 状态 序列 
I= (ii …… ,条 )。 即 给 定 观测 序列 , 求 最 有 可 能 的 对 应 的 状态 序列 。 

下 面 各 节 将 逐一 介绍 这 些 基 本 问题 的 解法 。 


10.2 ”概率 计算 算法 


本 节 介绍 计算 观测 序列 概率 P(O|A) 的 前 向 (forward) 与 后 向 (backward) 算法 。 
先 介 绍 概 念 上 可 行 但 计算 上 不 可 行 的 直接 计算 法 。 


10.2.1 直接 计算 法 


给 定 模型 A = (A, B, r) 和 观测 序列 O = (01,o2,… or), 计算 观测 序列 O 出 现 
的 概率 P(O|IA)。 最 直接 的 方法 是 按 概 率 公 式 直接 计算 。 通 过 列举 所 有 可 能 的 长 度 为 了 
的 状态 序列 工 = (i1,i2,… ,条 )， 求 各 个 状态 序列 工 与 观测 序列 O = (01,02, ,or) 
的 联合 概率 P(O, IA) 然后 对 所 有 可 能 的 状态 序列 求 和 , 得 到 POJA). 

状态 序列 工 = (i1,i2,… pir) 的 概率 是 : 


P(IIN) = TitaitiaQiaia Qir_iir (10.10) 
对 固定 的 状态 序列 工 = (i1, i2, ir) 观测 序列 O = (01, 02,… ,or) 的 概率 是 : 
P(O|L, A) = oa(ol)biz(oz) bizr(or) (10.11) 
O 和 了 同时 出 现 的 联合 概率 为 
P(O, 1|A) = P(O|I, MP(IIA) 


= Ti, bi, (01) Giz iz big (02)*** Qir_1ir biz (OT) (10.12) 


然后 , 对 所 有 可 能 的 状态 序列 了 求 和 , 得 到 观测 序列 O 的 概率 POJA), 即 


P(O|A) = > P(O, NP(IIA) 
I 


= >》 raba(o)anibis(02) air_rirbiz(or) (10.13) 


bi2 ir 
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但 是 , 利用 公式 (10.13) 计算 量 很 大 , Æ ONT) GY, 这 种 算法 不 可 行 。 
下 面 介绍 计算 观测 序列 概率 P(O) 的 有 效 算法 : 前 向 -后 向 算法 (forward- 
backward algorithm) 。 


10.2.2 ”前 向 算法 


首先 定义 前 向 概率 。 
定义 10.2 (前 向 概率 ) ”给 定 隐 马 尔 可 夫 模 型 X 定义 到 时 刻 t 部 分 观测 序列 为 
01,02,°°* ,Ot 且 状 态 为 qi 的 概率 为 前 向 概率 ， 记 作 


a(i) = P01, 02,-+- 0t, it = qilà) (10.14) 
可 以 递 推 地 求 得 前 向 概率 a(i) 及 观测 序列 概率 P(O|A) 
算法 10.2 (观测 序列 概率 的 前 向 算法 ) 
输入 : 隐 马 尔 可 夫 模 型 A 观测 序列 O; 


输出 : 观测 序列 概率 P(O| 和 )。 
(1) 初 值 


a(i) = mbi(o1), i=1,2,,N (10.15) 


(2) 递 推 对 t=1,2,:…,T 一 1， 


atili p= Baws a] (0141), @=1,2,---,N (10.16) 

(3) 终止 
P(O|A) = Sarl (10.17) 
a 


前 向 算法 , RR (1) 初始 化 前 向 概率 ,是 初始 时 刻 的 状态 i = qi 和 观测 o1 的 
联合 概率 。 步 骤 (2) 是 前 向 概率 的 递 推 公式 , 计算 到 时 刻 t 十 1 部 分 观测 序列 为 
01,02,… ,0t;0t+1 且 在 时 刻 t 十 1 处 于 状态 q 的 前 向 概率 ， 如 图 10.1 所 示 。 在 式 
(10.16) 的 方 插 弧 里 , 既然 ae(7) 是 到 时 刻 t 观测 到 01,02,- ,ot 并 在 时 刻 t 处 于 状态 
q 的 前 向 概率 , 那么 乘积 a(j)aji 就 是 到 时 刻 t 观测 到 01, 02,--- ,ot 并 在 时 刻 t 处 于 
状态 gj 而 在 时 刻 t 十 1 到 达 状 态 q 的 联合 概率 。 对 这 个 乘积 在 时 刻 t 的 所 有 可 能 
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N 个 状态 qg 求 和 ,其 结果 就 是 到 时 刻 t 观测 为 ol 00,--- ,ot 并 在 时 刻 上 十 1 处 于 状 
AS q 的 联合 概率 。 方 插 弧 里 的 值 与 观测 概率 bilo) 的 乘积 恰好 是 到 时 刻 t 十 1 观测 
到 01, oz， … ,ob ot+l 并 在 时 刻 t 十 1 处 于 状态 qi 的 前 向 概率 atili) 步骤 (3) 给 出 
P(O|A) 的 计算 公式 。 因 为 


ar(i) = P(01,02,--- ,or,ir = ilà) 


所 以 - 
P(O) = 》 ar 
4 一 1 


| 


a()) a(i) 
图 10.1 前 向 概率 的 递 推 公式 


如 图 10.2 所 示 ， 前 向 算法 实际 是 基于 “状态 序列 的 路 径 结构 ” 递 推 计算 P(O| 和 ) 
的 算法 。 前 向 算法 高 效 的 关键 是 其 局 部 计算 前 向 概率 ， 然 后 利用 路 径 结构 将 前 
向 概率 “ 递 推 ”到 全 局 ， 得 到 P(O| 和 A)。 具 体 地 ,在 时 刻 t = 1， 计 算 a(t) WN 
个 值 (i = 1,2,---,N); 在 各 个 时 刻 t = 12…) 了 一 1， 计算 onli) AN ME 
(i = 1,2,… ,入 ), 而 且 每 个 arna (i) 的 计算 利用 前 一 时 刻 N 个 at(7)。 减 少 计算 量 的 
原因 在 于 每 一 次 计算 直接 引用 前 一 个 时 刻 的 计算 结果 , 避免 重复 计算 。 这样, 利用 前 
向 概率 计算 P(O| 和 ) 的 计算 量 是 O(N?T) 阶 的, 而 不 是 直接 计算 的 O(TNT) We 


图 10.2 ”观测 序列 路 径 结构 
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例 10.2 考虑 盒子 和 球 模 型 = (4, B,7), RERE Q = {1,2,3}, 观测 集合 
V = { 红 , A}, 
0.5 0.2 0.3 0.5 0.5 0.2 
4=|03 05 02], B=]04 06], t=] 04 
0.2 03 05 0.7 0.3 0.4 


KT=3,O=(4, A, 
解 ”按照 算法 10.2 


红 ), 试用 前 向 算法 计算 P(OIA)。 


(1) 计算 初 值 
aı(1) = mbi(01) = 0.10 
a; (2) = T2b2(01) = 0.16 
a1 (3) = 73b3(01) = 0.28 
(2) 递 推 计算 
> 
az(1) = [ee b1(02) = 0.154 x 0.5 = 0.077 
i=1 a 
8 
a2(2) = > Qi(i)aiz | b2(02) = 0.184 x 0.6 = 0.1104 
i=1 4 
R : 
aa(3) = È aı(i)aiz | b3 (02) = 0.202 x 0.3 = 0.0606 
i=1 d 
n 7 
a3(1) = > az(i)ai | bı(03) = 0.04187 
i=1 4 
4 7 
a3(2) = 区 az(i)aiz | b2(03) = 0.03551 
i=1 all 
3 
a3(3) = > a2(i)ai3| b3(03) = 0.05284 
i=1 J 
(3) 终止 


3 
P(OIA) = 》 as(i) = 0.13022 
iml 
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10.2.3 ”后 向 算法 


定义 10.3 (后 向 概率 ) ”给 定 隐 马尔 可 夫 模 型 X 定义 在 时 刻 t 状态 为 G 的 条 件 


下 ,从 t 十 1 到 了 的 部 分 观测 序列 为 ot+1,0t42,*… ,OT 


的 概率 为 后 向 概率 ， 记 作 


bili) = P(0t+1,0t+2,: + ,oTlit = qi, À) (10.18) 


可 以 用 递 推 的 方法 求 得 后 向 概率 B.(i) 及 观测 序列 概率 P(O| 和 )。 


算法 10.3 (观测 序列 概率 的 后 向 算法 ) 
输入 : 隐 马 尔 可 夫 模 型 A, 观测 序列 O; 
输出 : 观测 序列 概率 P(O| 和 )。 

a 


brli)=1, i=1,2,---,N (10.19) 


(2) H#t=T-1,T-2,---,1 


N 
Bi(i) = >》 aijbj(0t+1)ber1 (5), i= 


1,2,---,N (10.20) 
jal 
(3) 
N 
P(O|A) = 》 mibi(or) i (2) (10.21) 
i=l 
| 


步骤 (1) 初始 化 后 向 概率 , 对 最 终 时 刻 的 所 有 状态 qi 规定 Br (i) = 1。 步 又 (2) 
是 后 向 概率 的 递 推 公式 。 如 图 10.3 所 示 , 为 了 计算 在 时 刻 t 状态 为 qi 条 件 下 时 刻 
t+1 之 后 的 观测 序列 为 oc41, ortt2,…… ,or 的 后 向 概率 beli) 只 需 考 虑 在 时 刻 t 十 1 所 


有 可 能 的 N 个 状态 q 的 转移 概率 ( 即 ay DD, UEA 


ri 
BO Ba) 


E 此 状态 下 的 观测 otya 的 观测 


10.3 ”后 向 概率 递 推 公式 
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概率 〈 即 bj (0141) D, 然后 考虑 状态 qj 之 后 的 观测 序列 的 后 向 概率 ( 即 B41 (7) 项 )。 
步骤 (3) 求 P(O| 和 ) 的 思路 与 步骤 (2) 一 致 , 只 是 初始 概率 xi 代替 转移 概率 。 
利用 前 向 概率 和 后 向 概率 的 定义 可 以 将 观测 序列 概率 P(O|A) 统一 写成 


N N 
P(OIA) = »> a, (i)aijbj(Or41)41(9), t= 1,2,---,T-1 (10.22) 


10.2.4 ”一些 概率 与 期 望 值 的 计算 


利用 前 向 概率 和 后 向 概率 , 可 以 得 到 关于 单个 状态 和 两 个 状态 概率 的 计算 公式 。 
1. 给 定 模 型 A 和 观测 O, 在 时 刻 t 处 于 状态 qi 的 概率 。 记 


nhi) = Piz = ailO, A) (10.23) 


可 以 通过 前 向 后 向 概率 计算 。 事实 上 ， 


tli) = Pli = qi|O, à) = E 
由 前 向 概率 o (i) 和 后 向 概率 i(i) 定义 可 知 : 
az(i)Bi(i) = Pli = qi, OJA) 


于 是 得 到 : van 
a(t) Bet) _ ae (2) Gr (2) (10.24) 


N 
> aA) 
j=1 


2. 给 定 模型 入 和 观测 O, 在 时 刻 t 处 于 状态 qi 且 在 时 刻 上 十 1 处 于 状态 q; 的 概 
率 。 记 


&(i, j) = Plie = qi, it+1 = G50, A) (10.25) 
可 以 通过 前 向 后 向 概率 计算 : 
alij) Pit = aie qj, OA) Pit = Gis it+1 = qj, OJA) 


NN 
YOY Pli = gitt = g, OJA) 
i=1 j=1 


Plit = dis it+1 = qj, OJA) = ar (i)aijbj (0841) Ge4i (J) 
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所 以 z 3 
ais) = rA Ant) (10.26) 
2 > aO aijbj (0141) B41 (9) 
i=1 j=1 
3. H yli) M Eli 7) 对 各 个 时 刻 t 求 和 , 可 以 得 到 一 些 有 用 的 期 望 值 。 
(1) 在 观测 O 下 状态 i 出 现 的 期 望 值 : 
T 
Yxi) (10.27) 
t=1 
(2) 在 观测 O 下 由 状态 i 转移 的 期 望 值 : 
T-1 
> xl) (10.28) 
t=1 
(3) 在 观测 O 下 由 状态 i 转移 到 状态 j 的 期 望 值 : 
T-1 
D elii) (10.29) 
t=1 


10.3 学 习 算 法 


隐 马 尔 可 夫 模 型 的 学 习 , 根据 训练 数据 是 包括 观测 序列 和 对 应 的 状态 序列 还 是 只 
有 观测 序列 ， 可 以 分 别 由 监督 学 习 与 无 监督 学 习 实现 。 本 节 首 先 介绍 监督 学 习 算法 ， 


而 后 介绍 无 监督 学 习 算 法 — Baum-Welch 算法 (也 就 是 EM 算法 )。 


10.3.1 监督 学 习 方法 


假设 已 给 训练 数据 包含 S 个 长 度 相同 的 观测 序列 和 对 应 的 状态 序列 {(O1, 11), 
(O2, 12),… , (Os, Is)} 那么 可 以 利用 极 大 似 然 估计 法 来 估计 隐 马 尔 可 夫 模 型 的 参数 。 


具体 方法 如 下 。 
1. 转移 概率 aij 的 估计 


设 样 本 中 时 刻 t 处 于 状态 i 时 刻 t 十 1 转移 到 状态 j 的 频数 为 Aij 那么 状态 转移 


概率 aig 的 估计 是 
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p= 1,2,---,N; fF =1,2,---,N (10.30) 


2. 观测 概率 b; (k) 的 估计 
设 样本 中 状态 为 7 并 观测 为 的 频数 是 Bjr 那么 状态 为 了 观测 为 HR bj (k) 
的 估计 是 


Bj 
=: 
> Bi 
k=l 
3. 初始 状态 概率 mi 的 估计 ii 为 5S 个 样本 中 初始 状态 为 qi 的 频率 


日 于 监督 学 习 需 要 使 用 标注 的 训练 数据 ,而 人 工 标注 训练 数据 往往 代价 很 高 , 有 
时 就 会 利用 无 监督 学 习 的 方法 。 


bj(k) = j= Ny = (10.31) 


10.3.2 Baum-Welch 算法 


假设 给 定 训练 数据 只 包含 5 个 长 度 为 了 的 观测 序列 {O01, 02,… , Os} 而 没有 对 
应 的 状态 序列 , 目标 是 学 习 隐 马尔 可 夫 模 型 = (A, B,7) 的 参数 。 我 们 将 观测 序列 数 
据 看 作 观 测 数据 O, 状态 序列 数据 看 作 不 可 观测 的 隐 数 据 I， 那 么 隐 马 尔 可 夫 模 型 事 
实 上 是 一 个 含有 隐 变 量 的 概率 模型 


P(OJA) = > P(OID NP(IIA) (10.32) 
I 
它 的 参数 学 习 可 以 由 EM 算法 实现 。 
1. 确定 完全 数据 的 对 数 似 然 函 数 
所 有 观测 数据 写成 O = (01,02, ,or), 所 有 隐 数 据 写成 工 = (ii,i2,… ,iT)， 
完全 数据 是 (O,I) = (01,02,… 0r, i112, ,iT)。 完 全 数据 的 对 数 似 然 函 数 是 
log P(O,T| 和 ) 。 


2. EM 算法 的 E 步 : R BA Q(X, © 


Q(A, A) = > log P(O, IA) P(O, |) (10.33) 
I 


O 按照 @ 函数 的 定义 7 P 
Q(A, A) = Erllog P(O, I|A)|O, A] 
st (10.33) 略 去 了 对 A 而 言 的 常数 因子 1/P(O|A)。 
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其 中 , 和 是 隐 马 尔 可 夫 模 型 参数 的 当前 估计 值 , 和 是 要 极 大 化 的 隐 马 尔 可 夫 模 型 参数 。 


P(O,1|A) = Tibi, (01)Qirisbia(02) - -` Qir_1irbir (OT) 


于 是 函数 Q(A, A) 可 以 写成 : 


T-1 
QA, 入 ) = > log mi, P(O, I|) T > (= log nuns) PO 11A) + 
T I t=1 


7 
5D (Zr ut P(O,TIN) (10.34) 


f t=1 


式 中 求 和 都 是 对 所 有 数据 的 序列 总 长 度 了 进行 的 。 


3. EM 算法 的 M 步 : 极 大 化 Q 函数 Q( 和 ,和 ) 求 模型 参数 A, B, r 


1 于 要 极 大 化 的 参数 在 式 (10.34) 中 单独 地 出 现在 3 个 项 中 , 所 以 只 需 对 各 项 分 
别 极 大 化 。 


(1) 式 (10.34) 的 第 1 项 可 以 写成 : 


N 
> log mi, P(O, 1X) = > log 7: P(O, i = iA) 
I 


i=1 


N 
注意 到 xt; 满足 约束 条 件 SO mi = 1, 利用 拉 格 朗 日 乘 子 法 , 写 出 拉 格 朗 日 函数 : 


i=1 


N E N 
> logr;P(O,i1 = ilà) +7 (È= 一 中 


i=1 i=1 
对 其 求 偏 导 数 并 令 结 果 为 0 
D N N 
Sa > log mP(O, i = |) +7 (2 一 =0 (10.35) 
t Li=1 i=1 
得 
P(O,i = ilà) 十 ym = 0 
Xi i RAIE y 7 
y= —P(O|A) 
代入 式 (10.35) 即 得 n aR 
mee a a (10.36) 


POJN 
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(2) 式 (10.34) 的 第 2 项 可 以 写成 


7-1 N N T-1 
> (Sve ous) PO. 二 和) = > > log aij 忆 (O, = i, it+1 = j|d) 
I \t=1 i=l j=1 t=1 
类 似 第 1 项 , 应 用 具有 约束 条 件 ras = 1 的 拉 格 朗 日 乘 子 法 可 以 求 出 
j=l 
T-1 7 
P(O, it = i, it41 = JA) 
aj = = (10.37) 
XL P(O, i = il)) 
t=1 


(3) 式 (10.34) 的 第 3 项 为 


N T 
> (Eren bi, (ot j)ro, IX) = X > logb;(o%)P(O, i = jÀ) 


I \t=1 j=1 t=1 


M 
同样 用 拉 格 朗 日 季子 法 ,约束 条 件 是 Y blk) = 1 注意 , 只 有 在 o = vp M bylor) 对 
bj(k) 的 偏 导数 才 不 为 0, 以 To, = vn) ER RE 
T 
DY P(O, i = jA) (o = ve) 


bj (k) = =— _—______—_ (10.38) 
Dj P(O, i = 51) 


t=1 
10.3.3. Baum-Welch 模型 参数 估计 公式 


将 式 (10.36)~ 式 (10.38) PMN SARAH yeli) &li j) as, 则 可 将 相应 的 公 
式 写 成 : 


(10.39) 


10.4 预测 算法 


T 


5 w(i) 


t=1,0;=v; 
bj(k) = 一季 一 一 一 


Souls) 


Ti = y(i) 


其 中 , yli) Eli 7) 分 别 由 式 (10.24) KI (10.26) 给 出 。 式 (10.39)~ 式 (10.41) 就 是 
Baum-Welch 算法 (Baum-Welch algorithm) ,， 它 是 EM 算法 在 隐 马 尔 可 夫 模型 学 习 


中 的 具体 实现 , 由 Baum 和 Welch 提出 。 
算法 10.4 (Baum-Welch 算法 ) 
输入 : 观测 数据 O = (oloz…… ,or)s 
输出 : 隐 马 尔 可 夫 模型 参数 。 


(1) 初始 化 。 对 n= 0, 选取 a9), bjk), 0, 得 到 模型 和 0) = (AM, BO, 7), 


(2) HE. X n = 1,2,:…， 


T-1 
> a&i i) 
(n+1) _ t=1 
Sij ~ T-1 
v(i) 
t=1 
T 
D (9) 
’ (n+1) _ tbot=vk 
bj(k) = T 
> TO) 
t=1 
mt) = (i) 


右 端 各 值 按 观 测 O = (01,02,… ,or) 和 模型 A = (AM, BO r) 计算 。 式 上 


nli), &li, j) 由 式 (10.24) 和 式 (10.26) 给 出 。 
(3) Bik, 得 到 模型 参数 入 (+DID) = (AMD, BOD r+), 


10.4 预测 算法 


下 面 介绍 隐 马 尔 可 夫 模 型 预测 的 两 种 算法 : 近似 算法 与 维特 比 算法 (Viterbi 


algorithm) 。 
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10.4.1 近似 算法 


近似 算法 的 想法 是 , 在 每 个 时 刻 t 选择 在 该 时 刻 最 有 可 能 出 现 的 状态 这 ,从 而 得 
到 一 个 状态 序列 产 = (i , 访 ), 将 它 作为 预测 的 结果 。 


给 定 隐 马 尔 可 夫 模 型 和 观测 序列 O, 在 时 刻 t 处 于 状态 qi 的 概率 yli) 是 


2 a00) 


在 每 一 时 刻 寺 最 有 可 能 的 状态 if 是 


ij = arg max [e()], t= 1,2, 0 7 (10.43) 
从 而 得 到 状态 序列 I* = (说 ,说 ,… , 访 )。 
近似 算法 的 优点 是 计算 简单 , 其 缺点 是 不 能 保证 预测 的 状态 序列 整体 是 最 有 可 能 
的 状态 序列 ， 因 为 预测 的 状态 序列 可 能 有 实际 不 发 生 的 部 分 。 事实 上 ， 上 述 方法 得 到 
的 状态 序列 中 有 可 能 存在 转移 概率 为 0 的 相 邻 状态 ， 即 对 某 些 i,j, ai; = 0 时 。 尽管 
如 此 , 近似 算法 仍然 是 有 用 的 。 


10.4.2 ”维特 比 算法 


维特 比 算 法 实际 是 用 动态 规划 (dynamic programming) 解 隐 马 尔 可 夫 模 型 预 
测 问题 ， 即 用 动态 规划 求 概率 最 大 路 径 〈 最 优 路 径 )。 这 时 一 条 路 径 对 应 着 一 个 状态 
序列 。 


根据 动态 规划 原理 ， 最 优 路 径 具 有 这 样 的 特性 : 如 果 最 优 路 径 在 时 刻 上 通过 结 点 
if, 那么 这 一 路 径 从 结 点 党 到 终点 访 的 部 分 路 径 , 对 于 从 这 到 访 的 所 有 可 能 的 部 
分 路 径 来 说 ， 必 须 是 最 优 的 。 因 为 假如 不 是 这 样 ,那么 从 党 到 访 就 有 另 一 条 更 好 的 
部 分 路 径 存在 ,如果 把 它 和 从 从 到 达 of 的 部 分 路 径 连 接 起 来 ,就 会 形成 一 条 比 原来 
的 路 径 更 优 的 路 径 , 这 是 了 矛盾 的 。 依 据 这 一 原理 , 我 们 只 需 从 时 刻 t = 1 开始 , 递 推 地 
计算 在 时 刻 t 状态 为 i 的 各 条 部 分 路 径 的 最 大 概率 , 直至 得 到 时 刻 t = 了 状态 为 i 的 
各 条 路 径 的 最 大 概率 。 时 刻 t = T 的 最 大 概率 即 为 最 优 路 径 的 概率 P, 最 优 路 径 的 
AGN ip 也 同时 得 到 。 之后, 为 了 找 出 最 优 路 径 的 各 个 结 点 ， 从 终结 点 ip 开始, 由 
后 向 前 逐步 求 得 结 点 访 _1,… ,这 ， 得 到 最 优 路 径 产 = (这 ,这 , 访 )。 这 就 是 维特 比 
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首先 导入 两 个 变量 5 AP. 定义 在 时 刻 t 状态 为 i 的 所 有 单个 路 径 (i1,i2,… ie) 
中 概率 最 大 值 为 


ôli) = max P(i =i it-1 i060 ,01|A), i=1,2,.…,N (10.44) 


tasty it—1 


1 定义 可 得 变量 6 的 递 推 公式 : 


6t+1(i) = Pee Pl(itt1 =i, it, i1, Or41,°*+ ,01|A) 


= max [6e(i)ajs]bi(or+1), i=1,2,---,N; t=1,2,---,T—-1 (10.45) 
定义 在 时 刻 上 状态 为 i 的 所 有 单个 路 径 ( 订 ,i2,… tea, 7) 中 概率 最 大 的 路 径 的 
第 t 一 1 个 结 点 为 


H(i) = arg max G1(j)e], i= 1,2, N (10.46) 
下 面 介绍 维特 比 算法 。 
算法 10.5 (维特 比 算法 ) 
输入 : 模型 = (A, B, r) 和 观测 O = (01,02, ,oT); 
输出 : 最 优 路 径 产 = (证 ,和 说 ,… , 访 )。 
(1) 初始 化 


61(i) = Nibi(01), i=1,2,.…,N 


(2) HE. 对 t= 2,3,… ,了 


6(i) = max [6e-1(5)aji]bi(oe), 7=1,2,---,N 


(i) = arg max [6-1 Gays), i=1,2,---,N 


(3) 终止 
P* = max ôr(i) 


1<i<N 


ip = arg max ler) 
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(4) 最 优 路 径 回 溯 。 对 t=T 一 1,T 一 2,… ,1 


a = Diri (ity) 
求 得 最 优 路 径 产 = (if, 13,--- , 访 )。 国 
下 面 通过 一 个 例子 来 说 明 维 特 比 算法 。 
例 10.3 例 10.2 的 模型 入 = (A, B, T), 


0.5 0.2 0.3 0.5 0.5 0.2 
A=/03 05 02 |, B=]|04 06], t=] 0.4 
0.2 0.3 0.5 0.7 0.3 0.4 


已 知 观测 序列 O = ( 红 ， 白 ， 红 )， 试 求 最 优 状 态 序列 ， 即 最 优 路 径 I* = (27,75, i5) 
解 ”如 图 10.4 所 示 , 要 在 所 有 可 能 的 路 径 中 选择 一 条 最 优 路 径 , 按照 以 下 步骤 处 理 : 
(1) 初始 化 。 在 t= 1 时 , 对 每 一 个 状态 i = 1,2,3, 求 状态 为 i 观测 ol 为 红 的 
概率 , 记 此 概率 为 ô (i) WY 


61 (i) = Tibi(ol) 一 midi (ZL), = 1,2,4 


代入 实际 数据 
61(1) = 0.10， 61(2) = 0.16， 61(3) = 0.28 


W (i) =0, i=1,2,3. 


4 
状态 
0.28 0.042 0.0147 
3 上 
lL 0.16 i 0.01008 
二 © 
alt 0.1 0.00756 
© 
fi 1 1 
0 1 2 3 时 间 


图 10.4” 求 最 优 路 径 


(2) 在 t= 2 时 , 对 每 个 状态 i i = 1,2,3, 求 在 t= 1 时 状态 为 7 观测 为 红 并 在 
t=2 时 状态 为 i 观测 oa 为 白 的 路 径 的 最 大 概率 , 记 此 最 大 概率 为 52(i)， W 
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62(i) = maz [61 (j)aji]bi(02) 


同时 , 对 每 个 状态 i, i = 1, 2,3， 记 录 概 率 最 大 路 径 的 前 一 个 状态 j: 


Pali) = arg max 页 oj 二 23 
计算 : 
62(1) = max, [61 (9) @j1]b1 (02) 
= max(0.10 x 0.5, 0.16 x 0.3, 0.28 x 0.2} x 0.5 
= 0.028 
Wo(1) = 
62(2) = 0.0504 
Wo (2) = 
62(3) = 0.042 
(3) = 
同样 , 在 t= 3 时 ， 


63(i) = max, [52(7)aji]bi (03) 


W3(i) = arg mar [52(j)a;a] 


(3) 以 P* 表示 最 优 路 径 的 概率 ， 则 


及 优 路 径 的 终点 是 i3: 


Prs ma 63(i) = 0.0147 


i3 = arg max [63(i)] = 3 
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(4) 由 最 优 路 径 的 终点 i3, 北向 找到 说, 这: 


在 1=2 时 ， 让 = 更 (人 ) = (3) =3 
在 t=1 时 ， if = W(t) = (3) =3 


S. 


于 是 求 得 最 优 路 径 , 即 最 优 状态 序列 I* = (if, 15,73) = (3,3,3). 国 


本 章 概 要 


1. 隐 马 尔 可 夫 模 型 是 关于 时 序 的 概率 模型 ,描述 由 一 个 隐藏 的 马尔 可 夫 链 随机 
生成 不 可 观测 的 状态 的 序列 , 再 由 各 个 状态 随机 生成 一 个 观测 从 而 产生 观测 序列 的 
过 程 。 

隐 马 尔 可 夫 模 型 由 初始 状态 概率 向 量 r、 状 态 转 移 概率 矩阵 4 和 观测 概率 矩阵 B 
决定 。 因 此 ， 隐 马尔 可 夫 模型 可 以 写成 入 = (4,B,7)。 

隐 马 尔 可 夫 模 型 是 一 个 生成 模型 , 表示 状态 序列 和 观测 序列 的 联合 分 布 , 但 是 状 
态 序列 是 隐藏 的 , 不 可 观测 的 。 

隐 马 尔 可 夫 模 型 可 以 用 于 标注 , 这 时 状态 对 应 着 标记 。 标注 问题 是 给 定 观 测序 列 
预测 其 对 应 的 标记 序列 。 

2. 概率 计算 问题 。 给 定 模型 和 = (A, B, r) 和 观测 序列 O = (01,02, ,or), 计算 
在 模型 入 下 观测 序列 O 出 现 的 概率 P(O| 和 )。 前 向 -后 向 算法 通过 递 推 地 计算 前 向 -后 
向 概率 可 以 高 效 地 进行 隐 马 尔 可 夫 模 型 的 概率 计算 。 

3. 学 习 问 题 。 已 知 观 测序 列 O = (01,02, ,or)， 估计 模型 入 = (A, B,7) 参 
数 ， 使 得 在 该 模型 下 观测 序列 概率 P(O|A) 最 大 。 即 用 极 大 似 然 估计 的 方法 估计 参 
数 。Baum-Welch 算法 , 也 就 是 EM 算法 可 以 高 效 地 对 隐 马 尔 可 夫 模 型 进行 训练 。 它 
是 一 种 无 监督 学 习 算 法 。 

4. 预测 问题 。 已 知 模型 入 = (A, Br) 和 观测 序列 O = (01, 02,… ,oT), 求 对 给 定 
观测 序列 条 件 概率 P(ITIO) 最 大 的 状态 序列 了 = (i1,i2,… ,ir)。 维特 比 算法 应 用 动态 
规划 高 效 地 求解 最 优 路 径 ， 即 概率 最 大 的 状态 序列 。 


隐 马 尔 可 夫 模 型 的 介绍 可 见 文献 [1, 2], 特别 地 , 文献 [1] 是 经 典 的 介绍 性 论文 。 
关于 Baum-Welch 算法 可 见 文献 [3, 和 4。 可 以 认为 概率 上 下 文 无 关 文 法 (probabilistic 
context-free grammar) 是 隐 马 尔 可 夫 模 型 的 一 种 推广 , 隐 马 尔 可 夫 模 型 的 不 可 观测 数 
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据 是 状态 序列 , 而 概率 上 下 文 无 关 文 法 的 不 可 观测 数据 是 上 下 文 无 关 文 法 树 回 。 动态 
贝 叶 斯 网 络 (dynamic Bayesian network) 是 定义 在 时 序数 据 上 的 贝 叶 斯 网 络 , 它 包含 
隐 马 尔 可 夫 模 型 , 是 一 种 特例 器。 


5 A 
10.1 给 定 盒子 和 球 组 成 的 隐 马 尔 可 夫 模 型 = (A,B, r) 其 中 ， 
0.5 0.2 03 0.5 0.5 
A= | 03 05 02|, B=| 04 06], m= (0.2, 0.4, 0.4)7 
0.2 0.3 0.5 0.7 0.3 


设 卫 = 4，O = ( 红 , A, 红 , A), 试用 后 向 算法 计算 P(O| 和 )。 
10.2 ”考虑 盒子 和 球 组 成 的 隐 马 尔 可 夫 模 型 和 = (A, B,7), 其 中 


0.5 0.1 0.4 0.5 0.5 
4=|03 05 02|, B=| 04 06], m= (0.2, 0.3, 0.5)7 
0.2 02 0.6 0.7 0.3 


设 了 = 8，O = ( 红 , A, 4, 4, A, 4, A, 白 ), 用 前 向 后 向 概率 计算 P(i4 = 
g310, A)。 

10.3 在 习题 10.1 F, 试用 维特 比 算法 求 最 优 路 径 产 = (if, 03,75, 23) 

10.4 ”试用 前 向 概率 和 后 向 概率 推导 


NN 


P(O|N) = Dai)aijbj(0rr)Ber1()), t= 2 T=1 


i=1 j=1 


10.5 比较 维特 比 算法 中 变量 5 的 计算 和 前 向 算法 中 变量 a 的 计算 的 主要 区 别 。 
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#118 条 件 随 机 场 


条 件 随 机 场 (conditional random field, CRF) 是 给 定 一 组 输入 随机 变量 条 件 下 另 
一 组 输出 随机 变量 的 条 件 概率 分 布 模型 ， 其 特点 是 假设 输出 随机 变量 构成 马尔 可 夫 随 
机 场 。 条 件 随机 场 可 以 用 于 不 同 的 预测 问题 ,本 书 仅 论 及 它 在 标注 问题 的 应 用 。 因 此 
主要 讲述 线性 链 Cinear chain) 条 件 随机 场 , 这 时 , 问题 变 成 了 由 输入 序列 对 输出 序 
列 预 测 的 判别 模型 ， 形 式 为 对 数 线性 模型 ， 其 学 习 方 法 通常 是 极 大 似 然 估计 或 正则 化 
的 极 大 似 然 估计 。 线 性 链条 件 随 机 场 应 用 于 标注 问题 是 由 Lafferty 等 人 于 2001 年 提 
出 的 。 


本 章 首先 介绍 概率 无 向 图 模型 ， 然 后 叙述 条 件 随机 场 的 定义 和 各 种 表示 方法 , 最 
后 介绍 条 件 随机 场 的 3 个 基本 问题 : 概率 计算 问题 、 学 习 问题 和 预测 问题 。 


11.1 概率 无 向 图 模型 


概率 无 向 图 模型 (probabilistic undirected graphical model) ， 又 称 为 马尔 可 夫 随 
机 场 (Markov random field) ， 是 一 个 可 以 由 无 向 图 表示 的 联合 概率 分 布 。 本 节 首 先 
叙述 概率 无 向 图 模型 的 定义 , 然后 介绍 概率 无 向 图 模型 的 因子 分 解 。 


a 


11.1.1 模型 定义 


图 (graph) 是 由 结 点 (node) 及 连接 结 点 的 边 (edge) 组 成 的 集合 。 结 点 和 边 分 别 
记 作 v Ale, 结 点 和 边 的 集合 分 别 记 作 V AE, 图 记 作 G = (V, E) 无 向 图 是 指 边 没 
有 方向 的 图 。 

概率 图 模型 (probabilistic graphical model) 是 由 图 表示 的 概率 分 布 。 设 有 联合 概 
率 分 布 P(Y), 了 Ye Y 是 一 组 随机 变量 。 由 无 向 图 G = (V, E) 表示 概率 分 布 P(Y), 即 
ERG 中 , 结 点 ve Y 表示 一 个 随机 变量 Yo Y = (Yooev; 边 ee 瑟 表示 随机 变量 
之 间 的 概率 依赖 关系 。 
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给 定 一 个 联合 概率 分 布 P(Y) 和 表示 它 的 无 向 图 G. 首先 定义 无 向 图 表示 的 随机 
变量 之 间 存 在 的 成 对 马尔 可 夫 性 (pairwise Markov property)、 局 部 马尔 可 夫 性 (local 
Markov property) 和 全 局 马尔 可 夫 性 (global Markov property) 。 

成 对 马尔 可 夫 性 : Ku Ale 是 无 向 图 G 中 任意 两 个 没有 边 连接 的 结 点 , 结 点 u 
和 w 分 别 对 应 随机 变量 Yu ALY, STA AO, 对 应 的 随机 变量 组 是 Yo。 成 对 
马尔 可 夫 性 是 指 给 定 随 机 变量 组 Yo 的 条 件 下 随机 变量 Yu ALY, 是 条 件 独 立 的 ， 即 


P(Yu; YolYo) = P(YulYo)P(Y|Yo) (11.1) 


局 部 马尔 可 夫 性 : Roe V 是 无 向 图 G 中 任意 一 个 结 点 ， W 是 与 v 有 边 连 接 的 
所 有 结 点 , O 是 v 和 W 以 外 的 其 他 所 有 结 点 。v 表示 的 随机 变量 是 Yo W 表示 的 随 
机 变量 组 是 Yw, O 表示 的 随机 变量 组 是 Yo 。 局 部 马尔 可 夫 性 是 指 在 给 定 随机 变量 组 
Yw 的 条 件 下 随机 变量 Y, 与 随机 变量 组 Yo 是 独立 的 ， 即 


P(Yy, YolYw) = P(Y,lYw)P(YolYw) (11.2) 
在 P(Yo|Yw) >0 时 ， 等 价 地 ， 
P(¥.|Yw) = P(Y|¥w, Yo) (11.3) 


图 11.1 表示 由 式 (11.2) 或 式 (11.3) 所 示 的 局 部 马尔 可 夫 性 。 


@v 

Ow 

@o 
图 11.1 局 部 马尔 可 夫 性 


全 局 马尔 可 夫 性 : 设 结 点 集合 4，B 是 在 无 向 图 G 中 被 结 点 集合 C 分 开 的 任意 
结 点 集合 , 如 图 11.2 所 示 。 结 点 集合 A 妃 和 C 所 对 应 的 随机 变量 组 分 别 是 Ya, Ye 
和 Yc。 全 局 马尔 可 夫 性 是 指 给 定 随 机 变量 组 Yo 条件 下 随机 变量 组 Ya 和 Ys 是 条 件 
独立 的 , BH 


P(Ya, Yp|¥c) = P(YalYc)P(Ys|Yc) (11.4) 


上 述 成 对 的 、 局 部 的 、 全 局 的 马尔 可 夫 性 定义 是 等 价 的 加。 
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图 11.2 ”全 局 马尔 可 夫 性 


下 面 定 义 概 率 无 向 图 模型 。 

定义 11.1 (概率 无 向 图 模型 ) 设 有 联合 概率 分 布 P(Y)， 由 无 向 图 = (V, EE) 
AT, LAG 中 ， 结 点 表示 随机 变量 ， 边 表示 随机 变量 之 间 的 依赖 关系 。 如果 联合 
概率 分 布 P(Y) 满足 成 对 、 局 部 或 全 局 马尔 可 夫 性 ， 就 称 此 联合 概率 分 布 为 概率 无 
向 图 模型 (probabilistic undirected graphical model ) ， 或 马尔 可 夫 随 机 场 (Markov 
random field ) 。 

以 上 是 概率 无 向 图 模型 的 定义 ,实际 上 , 我 们 更 关心 的 是 如 何 求 其 联合 概率 分 布 。 
对 给 定 的 概率 无 向 图 模型 ， 我 们 希望 将 整体 的 联合 概率 写成 若干 子 联合 概率 的 乘积 的 
形式 , 也 就 是 将 联合 概率 进行 因子 分 解 , 这 样 便 于 模型 的 学 习 与 计算 。 事 实 上 , 概率 无 
向 图 模型 的 最 大 特点 就 是 易于 因子 分 解 。 下 面 介绍 这 一 结果 。 


111.2 ”概率 无 向 图 模型 的 因子 分 解 


首先 给 出 无 向 图 中 的 团 与 最 大 团 的 定义 。 

定义 11.2 ( 团 与 最 大 团 ) ”无 向 图 G 中 任何 两 个 结 点 均 有 边 连接 的 结 点 子 集 称 
AB (clique). #C 是 无 向 图 G 的 一 个 团 ， 并 且 不 能 再 加 进 任何 一 个 G 的 结 点 使 其 
成 为 一 个 更 大 的 团 ， 则 称 此 C 为 最 大 团 (maximal clique ) 。 

图 11.3 表示 由 4 个 结 点 组 成 的 无 向 图 。 图 中 由 2 个 结 点 组 成 的 团 有 5 个 : {Y1 Yo} 
{Y2,¥3}, {Y3, Ya}, {¥a, Yo} 和 {Y1, Ys}. 有 2 个 最 大 团 : {Y1, Yo, Y3} 和 {Y2, Y3, Yabe 
而 {¥i, Y2, Y3, Ya} 不 是 一 个 团 ,， 因 为 页 和 Ya 没有 边 连接 。 


E 


A A 


图 11.3 ”无 向 图 的 团 和 最 大 团 
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将 概率 无 向 图 模型 的 联合 概率 分 布 表 示 为 其 最 大 团 上 的 随机 变量 的 函数 的 乘积 
形式 的 操作 ， 称 为 概率 无 向 图 模型 的 因子 分 解 (factorization) 。 

给 定 概率 无 向 图 模型 ， 设 其 无 向 图 为 G，C 为 G 上 的 最 大 团 , Yo 表示 C 对 应 的 
随机 变量 。 那么 概率 无 向 图 模型 的 联合 概率 分 布 PY) 可 写作 图 中 所 有 最 大 团 C 上 的 
函数 Wo(Yc) 的 乘积 形式 ， 即 


P(Y) = =1[Ye(Ye) (11.5) 


其 中 ，2 是 规范 化 因子 (normalization factor) ， 由 式 


z= > [Ye(Ye) (11.6) 
Y E 


给 出 。 规范 化 因子 保证 P(Y) 构成 一 个 概率 分 布 。 函 数 Wo (Yo) 称 为 势 函数 (potential 
function) 。 这 里 要 求 势 函数 Vo(Yo) 是 严格 正 的 , 通常 定义 为 指数 函数 : 


Yo(Yo) = exp{-E(Yc)} (11.7) 


概率 无 向 图 模型 的 因子 分 解 由 下 述 定 理 来 保证 。 
定理 11.1 (Hammersley-Clifford EH) 概率 无 向 图 模型 的 联合 概率 分 布 
PY) 可 以 表示 为 如 下 形式 : 


其 中 ，C 是 无 向 图 的 最 大 团 ，YC 是 C 的 结 点 对 应 的 随机 变量 , Wo(Yc) 是 C 上 定义 
的 严格 正 函 数 ,乘积 是 在 无 向 图 所 有 的 最 大 团 上 进行 的 。 a 


11.2 条 件 随机 场 的 定义 与 形式 


11.2.1 条 件 随 机 场 的 定义 


条 件 随 机 场 (conditional random field) 是 给 定 随 机 变量 X ZTF, ENEE Y 
的 马尔 可 夫 随 机 场 。 这 里 主要 介绍 定义 在 线性 链 上 的 特殊 的 条 件 随 机 场 ， 称 为 线性 链 
条 件 随 机 场 Cinear chain conditional random field) 。 线 性 链条 件 随 机 场 可 以 用 于 标 
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注 等 问题 这 时 , 在 条 件 概 率 模型 P(Y|X) F, Y 是 输出 变量 ,表示 标记 序列 ，X 是 
输入 变量 , 表示 需要 标注 的 观测 序列 。 也 把 标记 序列 称 为 状态 序列 (参见 隐 马 尔 可 夫 
模型 )。 学 习 时 , 利用 训练 数据 集 通 过 极 大 似 然 估 计 或 正则 化 的 极 大 似 然 估 计 得 到 条 
件 概 率 模型 户 (Y|X); 预测 时 , 对 于 给 定 的 输入 序列 z, 求 出 条 件 概 率 户 (y|z) 最 大 的 
输出 序列 Go 


首先 定义 一 般 的 条 件 随机 场 , 然后 定义 线性 链条 件 随 机 场 。 


定义 11.3 (条 件 随机 场 ) «=X SY 是 随机 变量 ， P(Y|X) 是 在 给 定 X 的 条 件 
FY 的 条 件 概率 分 布 。 HAMRE Y 构成 一 个 由 无 向 图 G = (V, E) 表示 的 马尔 可 夫 
随机 场 ， 即 


P(Yy|X, Yw, w # v) = P(Y|X, Yu, w ~ v) (11.8) 
对 任意 结 点 v 成 立 ， 则 称 条 件 概 率 分 布 P(Y|X) 为 条 件 随 机 场 。 式 中 w ~ 内 表示 在 
B G = (V, E) 中 与 结 点 v 有 边 连接 的 所 有 结 点 w wu 表示 结 点 v 以 外 的 所 有 结 
So Yo Yu 5 Yu ABR, u 5 w 对 应 的 随机 变量 。 
在 定义 中 并 没有 要 求 X MY 具有 相同 的 结构 。 现 实 中 , 一 般 假 设 X 和 YY 有 相 
同 的 图 结构 。 本 书 主要 考虑 无 向 图 为 如 图 11.4 与 图 11.5 所 示 的 线性 链 的 情况 ,， 即 


G= (V = {1,2,--- n}, E = {(ii+1)}), t=1,2,---,n-1 


在 此 情况 下 , X = (X1, X2, ,Xn), Y = (Yi, Y2 ,Yn), 最 大 团 是 相 邻 两 个 结 点 的 
集合 。 线 性 链条 件 随 机 场 有 下 面 的 定义 。 


Yı Y, Y, Yn 
X=(X XX.) 
图 11.4 ”线性 链条 件 随机 场 


Yı Y; Y, ¥ 


JIT 


X x X, X 


图 11.5 XAY 有 相同 的 图 结构 的 线性 链条 件 随机 场 


定义 11.4( 线 性 链条 件 随机 场 ) 设 X= (Xi,X2,… Xn)» Y = (Yi, Yo,--- Yn) 
均 为 线性 链表 示 的 随机 变量 序列 ， 若 在 给 定 随机 变量 序列 X 的 条 件 下 ， 随 机 变量 序列 
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Y 的 条 件 概率 分 布 P(Y|X) 构成 条 件 随机 场 ， 即 满足 马尔 可 夫 性 


P(¥s|X,Yi,-++ ,Vin Yigas Yn) = POYIX, Yi-a, Yin) 
,2,… ,n( 在 i=1 和 nn 时 只 考虑 单 边 ) (11.9) 


i=1,2 


则 称 P(Y |X) 为 线性 链条 件 随机 场 .。 EIER P, X 表示 输入 观测 序列 ，Y 表示 对 
应 的 输出 标记 序列 或 状态 序列 。 


11.2.2 ”条件 随机 场 的 参数 化 形式 


根据 定理 11.1, 可 以 给 出 线性 链条 件 随机 场 P(Y|X) 的 因子 分 解 式 , 各 因子 是 定 
义 在 相 邻 两 个 结 点 (最 大 团 ) 上 的 势 函 数 。 

定理 11.2 (线性 链条 件 随机 场 的 参数 化 形式 )” 设 P(Y|X) 为 线性 链条 件 随 机 
场 ， 则 在 随机 变量 X 取 值 为 r 的 条 件 下 ， 随 机 变量 Y 取 值 为 y 的 条 件 概率 具有 如 下 
形式 : 


Pyle) = Fj ex (= Mtr (W100) + D> misi(yis2, a) (11.10) 
i,k 


il 
其 中 ， 


Z(z) = 》 exp (= ete (Yi—15 Yis 2,4) + >》 pisi(yis 2, o) (11.11) 
y i,k il 


AY, ty F si 是 特征 函数 ， 和 J 和 py 是 对 应 的 权 值 。G(zZ) 是 规范 化 因子 , 求 和 是 在 所 
有 可 能 的 输出 序列 上 进行 的 。 

式 (11.10) 和 式 (11.11) 是 线性 链条 件 随机 场 模型 的 基本 形式 , 表示 给 定 输入 序列 
Zz， 对 输出 序列 y 预测 的 条 件 概率 。 式 (11.10) 和 式 (11.11) F, te 是 定义 在 边 上 的 特 
TEA, 称 为 转移 特征 , 依赖 于 当前 和 前 一 个 位 置 ，si 是 定义 在 结 点 上 的 特征 函数 ， 
称 为 状态 特征 ,依赖 于 当前 位 置 。 th 和 sz 都 依赖 于 位 置 , 是 局 部 特征 函数 。 通常 , 特 
TERA te FI si 取 值 为 1 或 0; 当 满足 特征 条 件 时 取 值 为 1， 否则 为 0。 条 件 随机 场 完 
全 由 特征 函数 tro sı 和 对 应 的 权 值 Axo pu 确定 。 

线性 链条 件 随机 场 也 是 对 数 线性 模型 Clog linear model). 

下 面 看 一 个 简单 的 例子 。 


例 11.1 设 有 一 标注 问题 : 输入 观测 序列 为 X = (X1, X2, Xs), 输出 标记 序列 为 
Y = (Y1, Y2, Y3); Yi, Y2, Ys WEF Y = {1,2}. 
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假设 特征 tessi 和 对 应 的 权 值 Xe 如 下 : 


=i(y1=1l,y=2,7,i), i=2,3, 和 A=1 


这 里 只 注 明 特征 取 值 为 1 的 条 件 , 取 值 为 0 的 条 件 省 略 ， 即 


1, yi-1=1, yi = 2,2, 3, (i = 2,3) 
ti(Yi-1; Yi, £, i) = 
0， 其 他 


= te yi = 1,42 =1,2,2) 和 2 = 0.6 


t2 ( 
ts = t3(y2 =2,y3=1,2,3) A3=1 
ta = ta(y1 = 2, yo = 1,2, 2), M4 =1 
ts = ts(y2 = 2,y3 = 2,1,3), Às =0.2 
sı = 51( = 1,2, 1), fy =1 
82 = So(y; = 2,2,i),t=1,2 /12 = 0.5 
83 = s3 (y = 1,2,1),i = 2,3 13 = 0.8 
s4 = $4(y3 = 2, 2,3), p4 = 0.5 
对 给 定 的 观测 序列 c 求 标记 序列 为 y = (41, 42,43) = (1,2,2) 的 非 规范 化 条 件 概 
率 〈 即 没有 除 以 规范 化 因子 的 条 件 概率 )。 
解 由 式 (11.10), 线性 链条 件 随机 场 模型 为 


5 3 4 3 
P(y|x) x exp | DM D> te(Yi-1, Vis Bt) + D> we >) selui z, å) 
k= i=? k=1 i=l 
对 给 定 的 观测 序列 z, 标记 序列 y = (1, 2,2) 的 非 规范 化 条 件 概率 为 


Pl(yi = 1, y2 = 2, y3 = 2|x) x exp(3.2) E 


11.2.3 条件 随 机 场 的 简化 形式 


条 件 随机 场 还 可 以 由 简化 形式 表示 。 注意 到 条 件 随 机 场 式 (11.10) 中 同一 特征 在 
各 个 位 置 都 有 定义 , 可 以 对 同一 个 特征 在 各 个 位 置 求 和 , 将 局 部 特征 函数 转化 为 一 个 
全 局 特征 函数 , 这 样 就 可 以 将 条 件 随 机 场 写成 权 值 向 量 和 特征 向 量 的 内 积 形 式 , 即 条 
件 随机 场 的 简化 形式 。 
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为 简便 起 见 , 首先 将 转移 特征 和 状态 特征 及 其 权 值 用 统一 的 符号 表示 。 设 有 K 
个 转移 特征 ，K2 个 状态 特征 , K = Ki 十 Ko, id 


te(yi-1, Yiz, i) k=1,2,... ,Ki 
fei- Yi 2,4) = ees (11.12) 
si(yi, 2,4), k=Kitl; l=1,2,.… ,Ko 


然后 , 对 转移 与 状态 特征 在 各 个 位 置 i 求 和 , 记 作 
fr(y, 7) 5È felu- DYT i) k=1,2,--,K (11.13) 


用 wk 表示 特征 f(y, z) 的 权 值 ， 即 


àk k=1,2,--,Kı 
We = (11.14) 
m, k=K,+Ul=1,2,---, Ko 


于 是 , 条 件 随 机 场 (11.10)~(11.11) 可 表示 为 
P(ylz) = 元 pt > z) (11.15) 
Z(z) = Sanh mii (11.16) 
7 = 


EU w 表示 权 值 向 量 , 即 
w = (w1, w2,- , we)? (11.17) 
以 F(y,2) 表示 全 局 特征 向 量 , 即 
F(y,2) = (f(u, 2), fo(y, 72), , fr (y, 2))7 (11.18) 


则 条 件 随 机 场 可 以 写成 向 量 ww 与 PF(y,z) 的 内 积 的 形式 : 


Pw(ylz) = (11.19) 


其 中 ， 


= >》 exp (w + F(y, x)) (11.20) 
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11.2.4 条 件 随 机 场 的 矩阵 形式 


条 件 随机 场 还 可 以 由 矩阵 表示 。 假设 Pu(ylz) 是 由 式 (11.15)~ 式 (11.16) 给 出 的 
线性 链条 件 随 机 场 , 表示 对 给 定 观 测序 列 rz， 相应 的 标记 序列 y 的 条 件 概率 。 对 每 个 
标记 序列 引进 特殊 的 起 点 和 终点 状态 标记 yo = start 和 yny1 = stop， 这 时 标注 序列 
的 概率 已 ,(y|lz) 可 以 通过 和 矩阵 形式 表示 并 有 效 计 算 。 

对 观测 序列 z 的 每 一 个 位 置 i = 1,2,… n+], AF yii My, 在 m 个 标记 中 
取 值 , 可 以 定义 一 个 m 阶 矩 阵 随 机 变量 


Mi(z) = [Mi(yi-1, yilz)] (11.21) 

矩阵 随机 变量 的 元 素 为 
Mi(yi-1, yilz) = exp (Wi(yi-1, yi|7)) (11.22) 
Wi(yi-1, yil?) = Sener ves i) (11.23) 


这 里 wk 和 fe 分 别 由 式 (11.14) 和 式 (11.12) 给 出 , yi_1 M yi 是 标记 随机 变量 Yi 
ALY; 的 取 值 。 


这 样 ,给 定 观测 序列 >， 相 应 标记 序列 y 的 非 规范 化 概率 可 以 通过 该 序列 n 1 


n+l 
个 矩阵 的 适当 元 素 的 乘积 Mi(yi-1,Yilz) 表示 。 于 是 ,条 件 概率 P,(y|z) 是 
i=1 
1 2H 
Pu(y|z) = Zola) I Mi(wi-1, vilz) (11.24) 
Ww el 


HF, Zole) 为 规范 化 因子 , Æ n+ 1 个 矩阵 的 乘积 的 (start, stop) 元 素 , 即 


Zulz) = [M1 (x)M2(2) - - - Mnt1(7)] (11.25) 


start,stop 


YER. yo = start 与 ynyi = stop 表示 开始 状态 与 终止 状态 ， 规 范 化 因子 Zale) 


是 以 start 为 起 点 stop 为 终点 通过 状态 的 所 有 路 径 my …: 如 的 非 规 范 化 概率 
n+l 

TI Miui- yila) 之 和 。 下 面 的 例子 说 明了 这 一 事实 。 

t=1 


例 11.2 给 定 一 个 由 图 11.6 所 示 的 线性 链条 件 随机 场 ,观测 序列 z， 状 态 序列 
y, t=1,2,3, n=3, 标记 yi € {1,2}, 假设 yo = start = 1, y4 = stop = 1, 各 个 位 置 
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的 随机 矩阵 My (a), Mo(x), Ms(x), Ma(x) 分 别 是 


0 


Cir C12 
Ma(z) = ; 
C21 C22 


0 


b21 b22 


1 0 
1 0 


bir dig 
M2(7) = | 


试 求 状态 序列 y 以 start 为 起 点 stop 为 终点 所 有 路 径 的 非 规范 化 概率 及 规范 化 因子 。 
fe 首先 计算 图 11.6 中 从 start 到 stop 对 应 于 y= (1,1,1), y = (112)，…， 


y = (2,2,2) 各 路 径 的 非 规范 化 概率 分 别 是 


Qoib1ic11, Qaoib11c12, 


Qao2b21cC11, Qa02b21C12, 


start 1 1 


agibi2ce1, Q01D12C22 


ao2b22€21, Qa02b22C22 


sto} 
bs p 


图 11.6 


状态 路 径 


然后 按 式 (11.25) 求 规范 化 因子 。 通 过 计算 矩阵 乘积 Mai(z)Mz(z)Ma(z)Ma(z) 可 


知 , 其 第 1 行 第 1 列 的 元 素 为 


Qo1b11cC11 + Qo2b21C11 + Q01D12C21 + a02b22€22 


+ Qo1b11C12 + a02b21C12 + Qo1b12C22 + Q02b22C21 


恰好 等 于 从 start 到 stop 的 所 有 路 径 的 非 规范 化 概率 之 和 ,， 即 规范 化 因子 Z(z)。 m 


11.3 条件 随机 场 的 概率 计算 问题 


条 件 随机 场 的 概率 计算 问题 是 给 定 条 件 随机 场 P(Y|X), 输入 序列 > 和 输出 序列 


y 计算 条 件 概 率 P(Y; = yi|zx), P(Yi_1 = 
题 。 为 了 方便 起 见 ， 像 隐 马 尔 可 夫 模 型 那 村 


yi-1, Yi = yalac) 以 及 相应 的 数学 期 望 的 问 
É, 引进 前 向 -后 向 向 量 , 递归 地 计算 以 上 概 


率 及 期 望 值 。 这 样 的 算法 也 称 为 前 向 -后 向 算法 。 


11.3 条 件 随机 场 的 概率 计算 问题 225 


11.31 前 向 -后 向 算法 
对 每 个 指标 i = 0,1,… ,n +1, 定义 前 向 向 量 ai(z): 


1, y= start 
ao(y|z) = (11.26) 
0, 否则 
az (oilz) = al 1 (yi—1|x)[Mi(yi-1, yl2)], 4=1,2,---,n4+1 (11.27) 
又 可 表示 为 
af (z) = aj i(z)Mi(z) (11.28) 


ai(yile) KREME i 的 标记 是 y; 并 且 从 1 到 ;的 前 部 分 标记 序列 的 非 规范 化 概 
K, ys 可 取 的 值 上 m 个 , 所 以 ai(z) 是 m 维 列 向 量 。 
同样 , 对 每 个 指标 i = 0,1,… ,n 十 1, 定义 后 向 向 量 Bi(z): 


1, In = 
Bn+1(Yn+1|) = we (11.29) 
0, 否则 
Bi(yilz) = (Misa (yi; virr|@)] G41 (Yiz) (11.30) 
又 可 表示 为 
Bil) = Mi+1 (2) Bi41 (2) (11.31) 


Bi(yi|z) 表示 在 位 置 i 的 标记 为 y; 并 且 从 i 十 1 到 n 的 后 部 分 标记 序列 的 非 规范 化 


11.3.2 概率 计算 


按照 前 向 -后 向 向 量 的 定义 , 很 容易 计算 标记 序列 在 位 置 i 是 标记 y; 的 条 件 概率 
和 在 位 置 i 一 1 与 i 是 标记 yi;_1 和 yi 的 条 件 概率 : 


ay (yilx) Bi(yilx) 
Z(z) 


P(Y; = yilz) (11.32) 
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az 4 (yi—1|x)Mi(yi—1, ysl) Bi (ysl) 
Z(x) 


P(Yi-1 = ywi-1, Yi = yilz) (11.33) 


其 中 ， 
Z(x) = al(x)1 = 161 (7) 


1 是 元 素 均 为 1 的 mm 维 列 向 量 。 


113.3 ”期 望 值 的 计算 


利用 前 向 -后 向 向 量 ,可 以 计算 特征 函数 关于 联合 分 布 P(X,Y) 和 条 件 分 布 
P(Y|X) 的 数学 期 望 。 
特征 函数 fe 关于 条 件 分 布 P(Y|X) 的 数学 期 望 是 


Epix [fel = > Ply |) f(y, 2) 


n+l T 
O51 (Yi-1|@) Mi (yi-1, yil2) Bi (Yale 
= yi i(yi-112) Mi (yi-1, yile) Bi(yile) 
í Z(x) 
i=1 yi—1yi 
[2 K (11.34) 


Z(x) = an(z)1 


假设 经 验 分 布 为 P(X), 特征 函数 i 关于 联合 分 布 P(X,Y) 的 数学 期 望 是 


n+l 


Epcxyylfel = >》 Pla,y) 》 fe(yi-1, Yi, 2,1) 
TY i=1 


n+l 


=D P(e) D Pile) D flunv i) 


n+1 T 
Ò „Qi (Yi—-1|2) Mi (Yi-1, ysl) Bi (yix 
= SPS E fl i) EE MOAT) 
kd i=1 yi—1Yyi 
ko iGo, K (11.35) 


其 中 ， 
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式 (11.34) 和 式 (11.35) 是 特征 函数 数学 期 望 的 一 般 计 算 公 式 。 对 于 转移 特征 
te(Yi-1, Yi 2,7), k = 1,2,… ,Ki, 可 以 将 式 中 的 fe HR tes 对 于 状态 特征 , 可 以 将 
式 中 的 te 换 成 Si» 表示 为 sl(i z, i)» k= Kı +l, l=1,2,---,K20 

有 了 式 (11.32) ~I (11.35), 对 于 给 定 的 观测 序列 x 与 标记 序列 y， 可 以 通过 一 次 
前 向 扫描 计算 a 及 Z(x), 通过 一 次 后 向 扫描 计算 B;:， 从 而 计算 所 有 的 概率 和 特征 的 
期 望 。 
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本 节 讨论 给 定 训练 数据 集 估计 条 件 随机 场 模型 参数 的 问题 , 即 条 件 随 机 场 的 学 习 
问题 。 条 件 随 机 场 模型 实际 上 是 定义 在 时 序数 据 上 的 对 数 线性 模型 ， 其 学 习 方法 包括 
极 大 似 然 估 计 和 正则 化 的 极 大 似 然 估 计 。 具体 的 优化 实现 算法 有 改进 的 迭代 尺度 法 
IIS、 梯 度 下 降 法 以 及 拟 牛 顿 法 (参阅 附录 A 和 附录 B)。 


11.4.1 ”改进 的 迭代 尺度 法 


已 知 训练 数据 集 ， 由 此 可 知 经 验 概率 分 布 P(X,Y)。 可 以 通过 极 大 化 训练 数据 的 
对 数 似 然 函数 来 求 模型 参数 。 
训练 数据 的 对 数 似 然 函数 为 
L(w)=La(P,)=10g [] Poy) = Y P(a,y) log Palula) 


TY TY 


当 Py 是 一 个 由 式 (11.15) 和 式 (11.16) 给 出 的 条 件 随机 场 模型 时 , 对 数 似 然 函数 为 


L(w) = > P(z,y) log P,(ylz) 


TY 
= >》 |E, sh AT y, x) — P(x,y) log Zu(z) 
TY k=1 
N K N 
=X >》 wrfeluj z) — > log Zwl(z;) 
j=1 k=1 j=1 


BOH EY FSR IR EA TL TE AR T AA RAAT I RAE at YP FE, 达到 极 
大 化 对 数 似 然 函 数 的 目的 。 假设 模型 的 当前 参数 向 量 为 w = (wi, w- wg) 向量 
的 增 量 为 6 = (61,62,… ,56k)T，, 更 新 参数 向 量 为 w+6 = (wi td, wz 十 62，.… ,WK 十 
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ôk). ERPE R, 改进 的 迭代 尺度 法 通过 依次 求解 式 (11.36) 和 式 (11.37), 
得 到 6 = (61, 62,--- OK) os 推导 可 参考 本 书 6.3.1 节 。 
关于 转移 特征 t 的 更 新 方程 为 
n+l 
Eplti] = 》 P(a,y) 》 te(yi-a, vi, 2i) 
TY i=1 


n+1 


= >》 P(x) Py|x) 》 te(yi-1, yi, £, i) exp(6xT (x, y)) 


ry i=1 


k=1,2,---,Ky (11.36) 


关于 状态 特征 s 的 更 新 方程 为 


n+l 


Ep|si] = Yo Plz,y) > si(yi, x,t) 
zy i=1 
= > Pia) P(y|x) > sil yi, x, i) exp(dx,41T (x, y)) 
i=1 
1=1,2,---, Ko (11.37) 


这 里 , T(z,y) 是 在 数据 (x,y) 中 出 现 所 有 特征 数 的 总 和 : 


K n+l 


T(z,y) = 2 fel y,7) = > >》 feli- Yi, w, i) (11.38) 

k=1 i=1 

算法 11.1 (条 件 随 机 场 模型 学 习 的 改进 的 迭代 尺度 法 ) 

输入 : BIERZ tita ,tk ，51, 52,… ,SKs; 经 验 分 布 P(x,y); 

输出 : 参数 估计 值 D; 模型 Poo 

(1) 对 所 有 Ke {1,2,---, K}, WINE wk = 0; 

(2) 对 每 一 ke {1,2,---, K}: 

(a) 4k=1,2,---,Ki 时 , $ ôk 是 方程 


n+1 
> P(2) Pyle) 2 tk (Yi—1 Yi 2 i) exp(ðkT (£, y)) = Elta] 


的 解 ; 
当天 = Ki 十 4 1 = 1,2,… ,Kz 时 , $ ôk, 是 方程 


> Pla) Plz) > si(yi, 7,i) exp(6x, 11T (2,9) = Eplsi] 


TY i=1 
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的 解 , 式 中 工 (z,y) 由 式 (11.38) 给 出 。 
(b) 更 新 wk fH: wk — we + ôk 
(3) 如 果 不 是 所 有 wi 都 收敛 , 重复 步骤 (2). 


在 式 (11.36) 和 式 (11.37) F, T(z,y) 表示 数据 (x,y) 中 的 特征 总 数 , 对 不 同 的 数 
据 (x,y) 取 值 可 能 不 同 。 为 了 处 理 这 个 问题 , 定义 松弛 特征 


n+l K 


s(z,y)=9- o> fe(yi-1, yi, 2,4) (11.39) 


i=1 k=1 


AP S 是 一 个 常数 。 选 择 足 够 大 的 常数 S 使 得 对 训练 数据 集 的 所 有 数据 (x,y), 
(x,y) > 0 成 立 。 这 时 特征 总 数 可 取 So 


] 式 (11.36), 对 于 转移 特征 th» Òk 的 更 新 方程 是 


n+l 
> P(a) Pyle) >》 te(yi-1, Yi, £, i) exp(5eS) = Eplta] (11.40) 
i=1 
_ 1, Balts) 
ôk = 108 Flt] (11.41) 
其 中 ， 
n+l 
i (v= i|z)M, (Vi 1, Vil7) Bi(yilz) 
E =) P@ i-i Yi oe (9-1 |r) Ma (vi-n vil) Boel) 
(tk) = LA LE tk(Yi-1 Yi £, i) ZG) 
(11.42) 
同样 由 式 (11.37), 对 于 状态 特征 so 64k 的 更 新 方程 是 
> P(a)P(yla) 》 si(yi,z, i) exp(dx, 41S) = Eslsi] (11.43) 
TY i=1 
bes Blog ae (11.44) 
其 中 ， 
Ep(s1) = Lr JE E nia i pieg et (11.45) 
i=1 Yi 


以 上 算法 称 为 算法 S。 在 算法 S 中 需要 使 常数 S 取 足 够 大 , BOR, PENR 
的 增 量 向 量 会 变 大 , 算法 收敛 会 变 慢 。 算 法 T 试图 解决 这 个 问题 。 算法 T 对 每 个 观测 
序列 zx 计算 其 特征 总 数 最 大 值 T(z): 
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T(z) = max T(2,y) (11.46) 


利用 前 向 -后 向 递 推 公式 , 可 以 很 容易 地 计算 T(z) = to 


这 时 , 关于 转移 特征 参数 的 更 新 方程 可 以 写成 : 
n+l 
Eplte] = X P(2)P(ylz) X te(yi-1, yi, 2,4) exp(ôkT(2)) 
TY i=1 
= n+1 
= >》 P(x) > Pilz) 》 te(yi-1, vis £, i) exp(6T(z)) 
z y ‘ii. 


= 5 P(2x)ax,¢ exp(dxt) 


Tmax 


= ax ph (11.47) 
t=0 


这 里 ， Qk,t 是 特征 tt 的 期 待 值 , 6, = log Bye By 是 多 项 式 方程 (11.47) 唯一 的 实 根 , 可 
以 用 牛顿 法 求 得 。 从 而 求 得 相关 的 dko 


同样 , 关于 状态 特征 的 参数 更 新 方程 可 以 写成 : 


Epls!] = > P(x)P(ylz) > si(yi, £, i) exp(5x, nT (2)) 
TY 


=X Pie) > P(ylz) 》 silvi, x, i) exp(6x, 417 (2)) 
z y i=1 


= 》 P(z)bit exp(Oxt) 


Tmax 


=> bt (11.48) 
if 


XE, bye 是 特征 s: 的 期 望 值 , 51 = logy, n 是 多 项 式 方程 (11.48) 唯一 的 实 根 ,也 
可 以 用 牛顿 法 求 得 。 


11.4.2 AWA 


条 件 随机 场 模型 学 习 还 可 以 应 用 牛顿 法 或 拟 牛 顿 法 (参阅 附录 B)。 对 于 条 件 随 
机 场 模型 
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exp bs wifi(x, v) 
Pu(ylz) = (11.49) 
> exp (>: wi filz, ») 
y i=l 
学 习 的 优化 目标 函数 是 
Me ee as (Eure, v) ) -J Pleu) Y vifte) 
7 (41.50) 
其 梯度 函数 是 
-2 Pu(ylz)j(z,y) — Es(f) (11.51) 


拟 牛 顿 法 的 BFGS 算法 如 下 。 

算法 11.2 (条 件 随 机 场 模型 学 习 的 BFGS 算法 ) 

输入 : 特征 函数 fi, fo,… , fn: 经 验 分 布 P(X,Y); 

输出 : 最 优 参 数值 w; 最 优 模型 Pa(ylz)。 

(1) 选 定 初始 点 wO, W Bo 为 正定 对 称 和 矩阵, Hk =0. 
(2) 计算 gk = g(w™). Æ gs = 0, 则 停止 计算 ; 否则 转 (3)。 
(3) 由 Bkpk = 一 gk 求 出 pk。 

(4) 一 维 搜索 : K Ar 使 得 


f(w™ + Apk) = min f(w + Apr) 


(5) 置 w(k+1) = w) 十 ADK。 
(6) 计算 gk+l = 9g(wtk+D0),， 车 gep = 0, 则 停止 计算 ; 否则 , 按 下 式 求 出 Bk+l: 
ye  Brôrðk Be 


B Bk + 
en = Bet Ta TB 
其 中 
Yk =9k+1— Gk, Ok = wD — wl) 
(7) Bk=k+1, 转 (3)。 m 
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条 件 随 机 场 的 预测 问题 是 给 定 条 件 随 机 场 P(Y|X) 和 输入 序列 (观测 序列 ) x, R 
条 件 概 率 最 大 的 输出 序列 (标记 序列 ) y*, 即 对 观测 序列 进行 标注 。 条 件 随机 场 的 预测 


232 第 11 章 条 件 随 机 场 


算法 是 著名 的 维特 比 算法 〈 参 阅 本 书 10.4 节 )。 
1 式 (11.19) 可 得 : 


y* = arg max Py (ylz) 


exp(w + F(y, 2)) 
Zul7) 


= arg maxexp(w + F(y, 7)) 
Y 


= arg max 
Y 


= argmax(w + F(y, 2)) 
于 是 , 条 件 随机 场 的 预测 问题 成 为 求 非 规 范 化 概率 最 大 的 最 优 路 径 问 题 
max(w » Fly, 2)) (11.52) 
这 里 , 路 径 表 示 标 记 序列 。 其 中 ， 


w = (wy, Wa, wg)" 


F(y, x) = (fily, 2), fo(y, 2), ++ ,fr (y, 7))™ 


felur) = 》 feli- Yi Ti), b=1,2,---,K 
i=1 


注意 , 这 时 只 需 计算 非 规范 化 概率 , 而 不 必 计 算 概率 , 可 以 大 大 提高 效率 。 为 了 求解 最 
优 路 径 , 将 式 (11.52) 写成 如 下 形式 : 


n 
max) w + Fi(yi-1, Yi, £) (11.53) 
izi 


其 中 ， 
ii 


Fi(ys—1, Yi, £) = (fi (ys—1, Yi, 2,4), f2(Yi-1, Ys, @, 2), + fe (Ysa, Yi 2,4) 


是 局 部 特征 向 量 。 
下 面 叙述 维特 比 算法 。 首 先 求 出 位 置 1 的 各 个 标记 =1, 2, ---, me 的 非 规范 化 概率 : 


61(j) =w « Fi (yo = start, yi =j,z), jg =1,2,---,m (11.54) 


一 般 地 ， 由 递 推 公式 , 求 出 到 位 置 i 的 各 个 标记 1 = 1,2, --- ,m 的 非 规范 化 概率 的 最 
大 值 , 同时 记录 非 规范 化 概率 最 大 值 的 路 径 
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(L) = arg max. {6109} +ws Fyi = ju = hpa) 1=1,2,---,m 


ô:(l) = 1 {107) tw-F(ya=jy=la)}, 1=1,2,---,m 


HS) i =n 时 终止 。 这 时 求 得 非 规范 化 概率 的 最 大 值 为 


及 1 


max(w + FPF(y,7)) = max én(j) 


1<j<m 


最 优 路 径 的 终点 


Yn = arg max, ôn (i) 


由 此 最 优 路 径 终 点 返回 ， 


yi = Viy (Yi) t=n—-1jn-2,---,1 


求 得 最 优 路 径 y* = (yi y3 yn)". 


综 上 所 述 , 得 到 条 件 随机 场 预 测 的 维特 比 算法 。 
算法 11.3 (条 件 随机 场 预 测 的 维特 比 算法 ) 


(11.55) 


(11.56) 


(11.57) 


(11.58) 


(11.59) 


输入 : 模型 特征 向 量 FF(y,z) 和 权 值 向 量 w 观测 序列 z= (21,22, ,Zn); 


输出 : 最 优 路 径 y* = (yf Y3 YA) 
(1) 初始 化 


ôi(j) = w+ Fi(yo = start, yı =j,2), J =1,2,---,m 


(2) WHE. Mi =2,3,---,n 
6i(1)= max {061(7)+w » Fi(yi-1=3,yi=l,2)}, 1=1,2,---,m 
1<j<xm 


WD)=arg max {5:-1(j)-+w e Fi(yia=j,yi=l,z)}, 1=1,2,---,m 


(3) 终止 


max(w + F(y,2)) = wax, Onl) 


yn = arg max dn(3) 


(4) 返回 路 径 


v = inlui) t=n—1,n—2,---,1 


求 得 最 优 路 径 y* = (yf, 她,… YA). 
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下 面 通 过 一 个 例子 说 明 维 特 比 算法 。 
例 11.3 在 例 11.1 中 , 用 维特 比 算法 求 给 定 的 输入 序列 (观测 序列 ) z 对 应 的 : 


#0 


优 输出 序列 (标记 序列 ) y* = (yt, yd, y) 


解 特征 函数 及 对 应 的 权 值 均 在 例 11.1 中 给 出 。 
现在 利用 维特 比 算法 求 最 优 路 径 问 题 : 


3 
max 》 w e Fi(yi-1, Yi, 7) 


i=1 


(1) 初始 化 


51(j) = w + Fi(yo = start, yı = j,z), j=1,2 


i=1, &(1)=1, 6(2)=0.5。 
(2) 递 推 
i=2 62(1) = max{61(7) +w » Fo(j, l, 2)} 
62(1) 
62(2) = max{1 + àıtı + u282,0.5 + p282} = 2.5, Wo(2)=1 


i=3 63(1) = max{da(j) +w » Fs(j,l,£)} 


= max{1 + Agte + a383, 0.5 + Agta + H353} = 2.4, Wo(1) =l 


63(1) = max{2.4 + 1383, 2.5 + X3ta + 14383} = 4,3, W3(1) =2 
63(2) = max{2.4 + Arty + Masa, 2.5 + Asts + pasa} = 3.9, W3(2) =i 
(3) 终止 
max(w + F(y,x)) = max 63(l) = 63(1) = 4.3 
y3 = arg max d3(I) = 1 
(4) 返回 
yz = W3(y3) = W3(1) = 2 
yi = Yo(y2) = (2)=1 
最 优 标记 序列 


y* = (yi, ¥2,¥3) = (1,2,1) B 
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本 章 概 要 


1. 概率 无 向 图 模型 是 由 无 向 图 表示 的 联合 概率 分 布 。 无 向 图 上 的 结 点 之 间 的 连接 
关系 表示 了 联合 分 布 的 随机 变量 集合 之 间 的 条 件 独立 性 ， 即 马尔 可 夫 性 。 因 此 ,概率 
无 向 图 模型 也 称 为 马尔 可 夫 随 机 场 。 

概率 无 向 图 模型 或 马尔 可 夫 随 机 场 的 联合 概率 分 布 可 以 分 解 为 无 向 图 最 大 团 上 
的 正 值 函 数 的 乘积 的 形式 。 

2. 条 件 随机 场 是 给 定 输入 随机 变量 X 条 件 下 , 输出 随机 变量 Y 的 条 件 概率 分 布 
模型 ,其 形式 为 参数 化 的 对 数 线性 模型 。 条件 随 机 场 的 最 大 特点 是 假设 输出 变量 之 间 
的 联合 概率 分 布 构 成 概率 无 向 图 模型 ， 即 马尔 可 夫 随 机 场 。 条 件 随机 场 是 判别 模型 。 

3. 线性 链条 件 随 机 场 是 定义 在 观测 序列 与 标记 序列 上 的 条 件 随 机 场 。 线 性 链条 件 
随机 场 一 般 表 示 为 给 定 观测 序列 条 件 下 的 标记 序列 的 条 件 概率 分 布 ,由 参数 化 的 对 数 
线性 模型 表示 。 模 型 包含 特征 及 相应 的 权 值 ， 特 征 是 定义 在 线性 链 的 边 与 结 点 上 的 。 
线性 链条 件 随 机 场 模 型 的 参数 形式 是 最 基本 的 形式 , 其 他 形式 是 其 简化 与 变形 , 参数 
形式 的 数学 表达 式 是 


1 r r 
PCylz) = 7a (= Ante (Yi-1, Yis 2, i) + Freta) 
ik il 


其 中 ， 
Z(z) = > exp (= Arte (Yi-1, Yi, T, i) + es 
y ik il 


4. 线性 链条 件 随 机 场 的 概率 计算 通常 利用 前 向 -后 向 算法 。 

5. 条 件 随 机 场 的 学 习 方 法 通常 是 极 大 似 然 估计 方法 或 正则 化 的 极 大 似 然 估 计 ， 即 
在 给 定 训练 数据 下 , 通过 极 大 化 训练 数据 的 对 数 似 然 函数 估计 模型 参数 。 具体 的 算法 
有 改进 的 迭代 尺度 算法 、 梯度 下 降 法 、 拟 牛顿 法 等 。 

6. 线性 链条 件 随 机 场 的 一 个 重要 应 用 是 标注 。 维特 比 算法 是 给 定 观测 序列 求 条 件 
概率 最 大 的 标记 序列 的 方法 。 


关于 概率 无 向 图 模型 可 以 参阅 文献 [1, 2]。 关 于 条 件 随 机 场 可 以 参阅 文献 [3, 4]. 在 条 
件 随 机 场 提出 之 前 已 有 最 大 炉 马 尔 可 夫 模 型 等 模型 被 提出 回 。 条 件 随 机 场 可 以 看 作 是 最 
大 入 马 尔 可 夫 模 型 在 标注 问题 上 的 推广 。 支 持 向 量 机 模型 也 被 推广 到 标注 问题 上 [6, "]。 
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习 A 


11.1 写 出 图 11.3 中 无 向 图 描述 的 概率 图 模型 的 因子 分 解 式 。 

11.2 证 明 2(z) = aT(z)1 = 176 (x), 其 中 1 是 元 素 均 为 1 的 mm 维 列 向 量 。 
11.3 写 出 条 件 随 机 场 模 型 学 习 的 梯度 下 降 法 。 

11.4 参考 图 11.6 的 状态 路 径 图 , 假设 随机 矩阵 Mai(z)，Ma(z)，Ma(z)，Ma(z) 


分 别 是 


0 0 0.3 0.7 
Ma(z) = > M2(7) = 

0.5 0.5 0.7 0.3 

0.5 0.5 0 1 
Ma(z) = ， Ma(z) = 

0.6 0.4 0 1 


求 以 start = 2 为 起 点 , 以 stop = 2 为 终点 的 所 有 路 径 的 状态 序列 y 的 概率 及 概 


率 最 大 的 状态 序列 。 
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本 篇 共 介 绍 了 10 种 主要 的 统计 学 习 方法 , 属于 监督 学 习 : 感知 机 、k 近邻 法 、 朴 
素 贝 叶 斯 法 、 决策 树 、 ESET AVS SORA. SCF BEL. 提升 方法 、 EM 算法、 
隐 马 尔 可 夫 模 型 和 条 件 随 机 场 。 现 将 这 10 种 监督 学 习 方法 的 特点 概括 总 结 在 表 12.1 中 。 


表 12.1 10 种 监督 学 习 方 法 特点 的 概括 总 结 


方法 “| 适用 问题 | ”模型 特点 


朴素 贝 叶 
斯 法 


ZN 


模型 


件 下 类 别 | 判别 模型 = T 
TEREP » JEM 


HE BY E 
algae wer 


支持 向 量 机 | 二 类 分 类 | 分 离 超 平面 ， | 极 小 化 正则 化 | 合 页 损失 guar 
技巧 合 页 损失 ， 软 算法 (SMO) 

janet 
提升 方法 RAAB i. laa 


EM 算法 由 | 概率 模型 To 
参数 估计 A 


oe eas 标注 


观 
ip 
分 
条 件 随 机 场 | 标注 haya 
ji 
线 


O EM 算法 在 这 是 


ja 
IE 


有 些 特 殊 , 它 是 个 一 般 方法 , 不 具有 具体 模型 。 
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下 面 对 各 种 方法 的 特点 及 其 关系 进行 简单 的 讨论 。 

1. 适用 问题 

本 篇 主要 介绍 监督 学 习 方法 。 监 督学 习 可 以 认为 是 学 习 一 个 模型 ， 使 它 能 对 给 定 
的 输入 预测 相应 的 输出 。 监 督学 习 包 括 分 类 、 标 注 、 回 归 。 本 篇 主要 考虑 前 两 者 的 学 
习 方法 。 分 类 问题 是 从 实例 的 特征 向 量 到 类 标记 的 预测 问题 ,标注 问题 是 从 观测 序列 
到 标记 序列 (或 状态 序列 ) 的 预测 问题 。 可 以 认为 分 类 问题 是 标注 问题 的 特殊 情况 。 分 
类 问题 中 可 能 的 预测 结果 是 二 类 或 多 类 。 而 标注 问题 中 可 能 的 预测 结果 是 所 有 的 标记 
序列 , 其 数目 是 指数 级 的 。 

感知 机 、k 近邻 法 、 朴 素 贝 叶 斯 法 、 决 策 树 、 逻 辑 斯 庄 回 归 与 最 大 炳 模型 、 支 持 向 
量 机 、 提 升 方法 是 分 类 方法 。 原 始 的 感知 机 、 支 持 向 量 机 以 及 提升 方法 是 针对 二 类 分 
类 的 ,可 以 将 它们 扩展 到 多 类 分 类 。 隐 马尔 可 夫 模 型 、 条 件 随机 场 是 标注 方法 。EM 算 
法 是 含有 隐 变 量 的 概率 模型 的 一 般 学 习 算法 ,可 以 用 于 生成 模型 的 无 监督 学 习 。 

感知 机 、k 近邻 法 、 朴 素 贝 叶 斯 法 、 决 策 树 是 简单 的 分 类 方法 ， 具 有 模型 直观 、 方 
法 简单 、 实 现 容易 等 特点 。 罗 辑 斯 诺 回 归 与 最 大 和 模 型 、 支 持 向 量 机 、 提 升 方法 是 更 
复杂 但 更 有 效 的 分 类 方法 ,往往 分 类 准确 率 更 高 。 隐 马尔 可 夫 模型 、 条 件 随机 场 是 主 
要 的 标注 方法 。 通 常 条 件 随机 场 的 标注 准确 率 更 高 。 

2. 模型 

分 类 问题 与 标注 问题 的 预测 模型 都 可 以 认为 是 表示 从 输入 空间 到 输出 空间 的 映 
射 。 它 们 可 以 写成 条 件 概率 分 布 P(Y|X) 或 决策 函数 Y = A(X) 的 形式 。 前 者 表示 给 
定 输入 条 件 下 输出 的 概率 模型 ， 后 者 表示 输入 到 输出 的 非 概率 模型 。 有 时 ， 模 型 更 直 
接地 表示 为 概率 模型 ,或 者 非 概率 模型 ; 但 有 时 模型 兼 有 两 种 解释 。 

朴素 贝 叶 斯 法 、 隐 马尔 可 夫 模 型 是 概率 模型 。 感知 机 、k 近邻 法 、 支 持 向 量 机 、 提 
升 方法 是 非 概率 模型 。 而 决策 树 、 罗 辑 斯 庄 回 归 与 最 大 炳 模型 、 条 件 随机 场 既 可 以 看 
作 是 概率 模型 ， 又 可 以 看 作 是 非 概率 模型。 
直接 学 习 条 件 概率 分 布 P(Y|X) 或 决策 函数 Y = f(X) 的 方法 为 判别 方法 , 对 应 
的 模型 是 判别 模型 。 感知 机 、k 近邻 法 、 决策 树 、 逻 辑 斯 谤 回归 与 最 大 烂 模型 、 支 持 向 
量 机 、 提升 方法 、 条 件 随机 场 是 判别 方法 。 首先 学 习 联 合 概率 分 布 P(X,Y)， 从 而 求 得 
条 件 概率 分 布 P(Y|X) 的 方法 是 生成 方法 ， 对 应 的 模型 是 生成 模型 。 朴 素 贝 叶 斯 法 、 
隐 马 尔 可 夫 模型 是 生成 方法 。 图 12.1 给 出 部 分 模型 之 间 的 关系 。 

可 以 用 无 监督 学 习 的 方法 学 习 生 成 模型 。 具体 地 , 应 用 EM 算法 可 以 学 习 朴素 贝 
叶 斯 模型 以 及 隐 马 尔 可 夫 模 型 。 

决策 树 是 定义 在 一 般 的 特征 空间 上 的 ,可 以 含有 连续 变量 或 离散 变量 。 感 知 机 、 支 
持 向 量 机 、k 近邻 法 的 特征 空间 是 欧 氏 空间 (更 一 般 地 , 是 希 尔 伯 特 空间 )。 提 升 方法 的 
模型 是 弱 分 类 器 的 线性 组 合 ， 弱 分 类 器 的 特征 空间 就 是 提升 方法 模型 的 特征 空间 。 
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感知 机 模型 是 线性 模型 ,而 逻辑 斯 说 回归 与 最 大 炳 模型 、 条 件 随 机 场 是 对 数 线性 
模型 大 近邻 法 、 决策 树 、 支持 向 量 机 (包含 核 函 数 )、 提升 方法 使 用 的 是 非 线性 模型 。 
图 12.1 从 生成 与 判别 、 分 类 与 标注 两 个 方面 描述 了 几 个 统计 学 习 方法 之 间 的 关系 。 


- - 生成 与 判别 逻辑 斯 详 回 
| 一 -| eee 
朴素 贝 叶 斯 法 VAS Ie he 
分 类 与 标注 分 类 与 标注 


隐 马 尔 可 夫 生成 与 判别 
模型 


图 12.1 ”部 分 模型 之 间 的 关系 


条 件 随 机 场 


3. 学 习 策 略 
在 二 类 分 类 的 监督 学 习 中 , SRE AL. ETF BSS OA BET 
各 自 使 用 合 页 损失 函数 、 逻 辑 斯 说 损失 函数 、 指 数 损失 函数 。3 种 损失 函数 分 别 写 为 


[1 — yf(z)]+ (12.1) 
log [1 + exp(—yf(z))] (12.2) 
exp(—yf(z)) (12.3) 


这 3 种 损失 函数 都 是 0-1 损失 函数 的 上 界 ， 具有 相似 的 形状 ， 如 图 12.2 所 示 。 所以， 
可 以 认为 支持 向 量 机 、 逻 辑 斯 谤 回归 与 最 大 入 模 型 、 提 升 方法 使 用 不 同 的 代理 损失 函 
数 (surrogate loss function) 表示 分 类 的 损失 , 定义 经 验 风 险 或 结构 风险 函数 , 实现 二 
类 分 类 学 习 任务 。 学 习 的 策略 是 优化 以 下 结构 风险 函数 : 


N 
DBA + JN) (124) 


这 里 , 第 1 项 为 经 验 风险 (经 验 损失 )， 第 2 项 为 正则 化 项 ，L(y, f(x) 为 损失 函 
Bl I(f) 为 模型 的 复杂 度 ， 和 A > 0 为 系数 。 
支持 向 量 机 用 Ls 范 数 表示 模型 的 复杂 度 。 原始 的 逻辑 斯 谤 回归 与 最 大 炉 模型 没 
有 正则 化 项 , 可 以 给 它们 加 上 Lo 范 数 正则 化 项 。 提升 方法 没有 显 式 的 正则 化 项 , 通常 
通过 早 停止 (early stopping) 的 方法 达到 正则 化 的 效果 。 
以 上 二 类 分 类 的 学 习 方 法 可 以 扩展 到 多 类 分 类 学 习 以 及 标注 问题 ， 比 如 标注 问题 
的 条 件 随 机 场 可 以 看 作 是 分 类 问题 的 最 大 炉 模 型 的 推广 。 
概率 模型 的 学 习 可 以 形式 化 为 极 大 似 然 估计 或 贝 叶 斯 估计 的 最 大 后 验 概率 估计 。 
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| 一 0-1 损 失 
25 Ë, 一 合 页 损失 | 
% = ERA 
GE $+ 
a ERIE 


损失 函数 


0 
-1.0 -0.5 0 0.5 1.0 15 2.0 
函数 间隔 : yf(x) 


图 12.2 0-1 损失 函数 、 合 页 损失 函数 、 逻 辑 斯 详 损 失 函 数 、 指 数 损失 函数 的 关系 


这 时 ,学习 的 策略 是 极 小 化 对 数 似 然 损失 或 极 小 化 正则 化 的 对 数 似 然 损失 。 对 数 似 然 
损失 可 以 写成 
— log P(y|z) 
大 后 验 概率 估计 时 , 正则 化 项 是 先 验 概率 的 负 对 数 。 
决策 树 学 习 的 策略 是 正则 化 的 极 大 似 然 估计 , 损失 函数 是 对 数 似 然 损 失 ， 正则 化 

项 是 决策 树 的 复杂 度 。 

逻辑 斯 说 回 归 与 最 大 炉 模 型 、 条 件 随机 场 的 学 习 策 略 既 可 以 看 成 是 极 大 似 然 估 
计 (或 正则 化 的 极 大 似 然 估计 ), 又 可 以 看 成 是 极 小 化 逻辑 斯 谤 损失 (或 正则 化 的 逻辑 
斯 详 损 失 ) 。 

朴素 贝 叶 斯 模型 、 隐 马尔 可 夫 模 型 的 无 监督 学 习 也 是 极 大 似 然 估计 或 最 大 后 验 概 
率 估计 , 但 这 时 模型 含有 隐 变 量 。 

4. 学 习 算法 

统计 学 习 的 问题 有 了 具体 的 形式 以 后 , 就 变 成 了 最 优化 问题 。 有 时 , 最 优化 问题 
比较 简单 , 解析 解 存在 , 最 优 解 可 以 由 公式 简单 计算 。 但 在 多 数 情况 下 , 最 优化 问题 没 
有 解析 解 ， 需 要 用 数值 计算 的 方法 或 启发 式 的 方法 求解 。 

朴素 贝 叶 斯 法 与 隐 马 尔 可 夫 模 型 的 监督 学 习 , 最 优 解 即 极 大 似 然 估计 值 , 可 以 由 
概率 计算 公式 直接 计算 。 

感知 机 、 逻 辑 斯 谤 回归 与 最 大 粹 模型 、 条 件 随 机 场 的 学 习 利用 梯度 下 降 法 、 拟 牛 
顿 法 等 。 这 些 都 是 一 般 的 无 约束 最 优化 问题 的 解法 。 

支持 向 量 机 学 习 ， 可 以 解 凸 二 次 规划 的 对 偶 问题 。 有 序列 最 小 最 优化 算法 等 
Trt 
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亚 


决策 树 学 习 是 基于 启发 式 算法 的 典型 例子 。 可 以 认为 特征 选择 、 生 成 、 剪 枝 是 
发 式 地 进行 正则 化 的 极 大 似 然 估计 。 

提升 方法 利用 学 习 的 模型 是 加 法 模型 、 损 失 函 数 是 指数 损失 函数 的 特点 , 启发 式 
地 从 前 向 后 逐步 学 习 模 型 ， 以 达到 逼近 优化 目标 函数 的 目的 。 

EM 算法 是 一 种 迭代 的 求解 含 隐 变 量 概率 模型 参数 的 方法 , 它 的 收敛 性 可 以 保证 ， 
但 是 不 能 保证 收敛 到 全 局 最 优 。 

支持 向 量 机 学 习 、 风 辑 斯 详 回 归 与 最 大 和 模 型 学 习 、 条 件 随 机 场 学 习 是 是 优化 问 
题 ， 全 局 最 优 解 保证 存在 。 而 其 他 学 习 问 题 则 不 是 凸 优化 问题 。 


第 2 篇 无 监督 学 习 
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第 2 篇 讲述 统计 学 习 或 机 器 学 习 中 的 无 监督 学 习 方法 。 无 监督 学 习 是 从 无 标注 数 
据 中 学 习 模 型 的 机 器 学 习 问 题 , 是 机 器 学 习 的 重要 组 成 部 分 。 

本 章 是 无 监督 学 习 的 概述 , 首先 叙述 无 监督 学 习 的 基本 原理 , 之 后 介绍 无 监督 学 
习 的 基本 问题 和 基本 方法 。 基本 问题 包括 聚 类 、 降 维 、 话 题 分 析 和 图 分 析 。 


13.1 无 监督 学 习 基 本 原理 


无 监督 学 习 是 从 无 标注 的 数据 中 学 习 数 据 的 统计 规律 或 者 说 内 在 结构 的 机 器 学 
J, 主要 包括 聚 类 、 降 维 、 概 率 估计 。 无 监督 学 习 可 以 用 于 数据 分 析 或 者 监督 学 习 的 
前 处 理 。 

无 监督 学 习 使 用 无 标注 数据 U = {fzt za … ,zw} 学习 或 训练 ， 其 中 zi, i = 
1,2,… , NN， 是 样本 (实例 ), 由 特征 向 量 组 成 。 无 监督 学 习 的 模型 是 函数 z = go(z)， 
条 件 概率 分 布 Py(z|z), 或 条 件 概率 分 布 己 (zlz)。 其 中 z < X 是 输入 , 表示 样本 ; z < Z 
是 输出 , 表示 对 样本 的 分 析 结 果 , 可 以 是 类 别 、 转换、 概率 ; 6 是 参数 。 

假设 训练 数据 集 由 N 个 样本 组 成 , 每 个 样本 是 一 个 M 维 向 量 。 训练 数据 可 以 由 
一 个 矩阵 表示 , 每 一 行 对 应 一 个 特征 ， 每 一 列 对 应 一 个 样本 。 


其 中 , zi; 是 第 7 个 向 量 的 第 i 维 ; i = 1,2,---,Ms 7 =1,2,---, No 

无 监督 学 习 是 一 个 困难 的 任务 , 因为 数据 没有 标注 , 也 就 是 没有 人 的 指导 , 机 器 
需要 自己 从 数据 中 找 出 规律 。 模 型 的 输入 z 在 数据 中 可 以 观测 , 而 输出 > 隐藏 在 数 
据 中 。 无 监督 学 习 通常 需要 大 量 的 数据 ， 因 为 对 数据 隐藏 的 规律 的 发 现 需要 足够 的 
观测 。 
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无 监督 学 习 的 基本 想法 是 对 给 定数 据 GEER) 进行 某 种 “压缩 >， 从 而 找到 数 
据 的 潜在 结构 。 假 定 损失 最 小 的 压缩 得 到 的 结果 就 是 最 本 质 的 结构 。 图 13.1 是 这 种 想 
法 的 一 个 示意 图 。 可 以 考虑 发 掘 数据 的 纵向 结构 ,把 相似 的 样本 聚 到 同类 ,， 即 对 数据 
进行 聚 类 。 还 可 以 考虑 发 所 数据 的 横向 结构 ， 把 高 维 空间 的 向 量 转换 为 低 维 空间 的 向 
量 , 即 对 数据 进行 降 维 。 也 可 以 同时 考虑 发 掘 数据 的 纵向 与 横向 结构 , 假设 数据 由 含 
有 隐 式 结构 的 概率 模型 生成 得 到 ， 从 数据 中 学 习 该 概率 模型 。 


(a) 数据 纵向 结构 O 数据 横向 结构 O 数据 横向 纵向 结构 
图 13.1 无 监督 学 习 的 基本 想法 


13.2 基本 问题 


1. RŽ 

FER (clustering) 是 将 样本 集合 中 相似 的 样本 (实例 ) 分 配 到 相同 的 类 , 不 相似 
的 样本 分 配 到 不 同 的 类 。 聚 类 时 , 样本 通常 是 欧 氏 空间 中 的 向 量 , 类 别 不 是 事先 给 定 ， 
而 是 从 数据 中 自动 发 现 , 但 类 别 的 个 数 通 常 是 事先 给 定 的 。 样本 之 间 的 相似 度 或 距离 
由 应 用 决定 。 如 果 一 个 样本 只 能 属于 一 个 类 ，, 则 称 为 硬 聚 类 Chard clustering) ; WR 
一 个 样本 可 以 属于 多 个 类 ， 则 称 为 软 聚 类 (soft clustering) 。 图 13.2 给 出 聚 类 〈 硬 聚 
类 ) 的 例子 。 二 维 空间 的 样本 被 分 到 三 个 不 同 的 类 中 。 

假设 输入 空间 是 欧 氏 空间 X C RI, 输出 空间 是 类 别 集合 Z = {1,2,:… ,kk}。 
聚 类 的 模型 是 函数 z = ge(z) 或 者 条 件 概率 分 布 Po(z|z), 其 中 ze X 是 样本 的 向 
量 , z e Z 是 样本 的 类 别 , 9 是 参数 。 前 者 的 函数 是 硬 聚 类 模型 ， 后 者 的 条 件 概率 分 布 
是 软 聚 类 模型 。 

聚 类 的 过 程 就 是 学 习 聚 类 模型 的 过 程 。 硬 聚 类 时 ， 每 一 个 样本 属于 某 一 类 
zi = go(ti)» i =1,2,--- , N; KRKI, 每 一 个 样本 依 概率 属于 每 一 个 类 Py(zi|7i), i = 
1,2,… , N. WE 13.1 所 示 ， 聚 类 可 以 帮助 发 现 数据 中 隐藏 的 纵向 结构 。( 也 有 例 
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图 13.2 ” 聚 类 的 例子 


外 ，co-clustering 是 聚 类 算法 ， 对 样本 和 特征 都 进行 聚 类 ， 同 时 发 现 数据 中 的 纵向 横 
向 结构 。) 

2. 降 维 

降 维 (dimensionality reduction) 是 将 训练 数据 中 的 样本 (实例 ) 从 高 维 空 间 转换 
到 低 维 空间 。 假设 样本 原本 存在 于 低 维 空间 , 或 者 近似 地 存在 于 低 维 空间 , 通过 降 维 
则 可 以 更 好 地 表示 样本 数据 的 结构 ， 即 更 好 地 表示 样本 之 间 的 关系 。 高 维 空间 通常 是 
高 维 的 欧 氏 空间 , 而 低 维 空间 是 低 维 的 欧 氏 空间 或 者 流 形 (manifold) 。 低 维 空间 不 是 
事先 给 定 ， 而 是 从 数据 中 自动 发 现 , 其 维 数 通常 是 事先 给 定 的 。 从 高 维 到 低 维 的 降 维 
HE, 要 保证 样本 中 的 信息 损失 最 小 。 降 维 有 线性 的 降 维 和 非 线性 的 降 维 。 图 13.3 给 出 
降 维 的 例子 。 二 维 空间 的 样本 存在 于 一 条 直线 的 附近 ， 可 以 将 样本 从 二 维 空间 转换 到 
一 维 空间 。 通过 降 维 可 以 更 好 地 表示 样本 之 间 的 关系 。 


=. 和 8 @2eaeean ny 


| = 
图 13.3 ” 降 维 的 例子 
假设 输入 空间 是 欧 氏 空间 X CRI, 输出 空间 也 是 欧 氏 空间 Z CR, d < d, 后 


者 的 维 数 低 于 前 者 的 维 数 。 降 维 的 模型 是 函数 z = go(x), 其 中 ze X 是 样本 的 高 维 向 
量 , z € 2 是 样本 的 低 维 向 量 , 9 是 参数 。 函数 可 以 是 线性 函数 也 可 以 是 非 线 性 函数 。 


248 第 13 章 无 监督 学 习 概论 


降 维 的 过 程 就 是 学 习 降 维 模型 的 过 程 。 降 维 时 ,每 一 个 样本 从 高 维 向 量 转换 为 低 
维 向 量 2; = gola) i= 1,2,… ,NN。 如 图 13.1 所 示 , 降 维 可 以 帮助 发 现 数据 中 隐藏 的 
横向 结构 。 


3. 概率 模型 估计 


概率 模型 估计 (probability model estimation)， 简 称 概率 估计 , 假设 训练 数据 由 
一 个 概率 模型 生成 ， 由 训练 数据 学 习 概率 模型 的 结构 和 参数 。 概率 模型 的 结构 类 型 ， 
或 者 说 概率 模型 的 集合 事先 给 定 , 而 模型 的 具体 结构 与 参数 从 数据 中 自动 学 习 。 学 习 
的 目标 是 找到 最 有 可 能 生成 数据 的 结构 和 参数 。 概 率 模型 包括 混合 模型 、 概 率 图 模型 
等 。 概率 图 模型 又 包括 有 向 图 模型 和 无 向 图 模型 。 图 13.4 给 出 混合 模型 估计 的 例子 。 
假设 数据 由 高 斯 混合 模型 生成 , 学 习 的 目标 是 估计 这 个 模型 的 参数 。 


_ ee 


图 13.4 ”概率 模型 估计 的 例子 


概率 模型 表示 为 条 件 概 率 分 布 Py(z|z), 其 中 随机 变量 xz 表示 观测 数据 ,可 以 是 
连续 变量 也 可 以 是 离散 变量 ; 随机 变量 z 表示 隐 式 结构 ,是 离散 变量 ; 随机 变量 9 表 
示 参 数 。 模 型 是 混合 模型 时 ，z 表示 成 分 的 个 数 ; 模型 是 概率 图 模型 时 ，z 表示 图 的 
结构 。 

概率 模型 的 一 种 特殊 情况 是 隐 式 结构 不 存在 , 即 满足 Py(z|z) = Py(z)。 这 时 条 件 
概率 分 布 估计 变 成 概率 分 布 估计 ， 只 要 估计 分 布 Py(z) 的 参数 即 可 。 传统 统计 学 中 的 
概率 密度 估计 ， 比 如 高 斯 分 布 参 数 估计 , 都 属于 这 种 情况 。 

概率 模型 估计 是 从 给 定 的 训练 数据 U = {z1,7z2,… ,zw} 中 学 习 模型 Py(z|z) 的 
结构 和 参数 。 这 样 可 以 计算 出 模型 相关 的 任意 边缘 分 布 和 条 件 分 布 。 注 意 随机 变量 x 
是 多 元 变量 ， 甚 至 是 高 维 多 元 变量 。 如 图 13.1 所 示 , 概率 模型 估计 可 以 帮助 发 现 数据 
中 隐藏 的 横向 纵向 结构 。 

软 聚 类 也 可 以 看 作 是 概率 模型 估计 问题 。 根 据 贝 叶 斯 公式 


Pala) = zaren x P(z)P(zlz) (13.1) 


假设 先 验 概率 服从 均匀 分 布 , 只 需要 估计 条 件 概率 分 布 Polej) 这样， 可 以 通过 对 条 
件 概率 分 布 Po(z|z) 的 估计 进行 软 聚 类 , 这 里 z 表示 类 别 , 9 表示 参数 。 
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13.3 ”机 器 学 习 三 要 素 


同 监督 学 习 一 样 , 无 监督 学 习 也 有 三 要 素 : 模型 、 策 略 、 算 法 。 

模型 就 是 函数 z = go(x), 条 件 概率 分 布 Py(z|z), 或 条 件 概率 分 布 Palez) ER 
类 、 降 维 、 概 率 模型 估计 中 拥有 不 同 的 形式 。 比 如 , 聚 类 中 模型 的 输出 是 类 别 ;， 降 维 中 
模型 的 输出 是 低 维 向 量 ; 概率 模型 估计 中 的 模型 可 以 是 混合 概率 模型 ， 也 可 以 是 有 向 
概率 图 模型 和 无 向 概率 图 模型 。 

策略 在 不 同 的 问题 中 有 不 同 的 形式 ,但 都 可 以 表示 为 目标 函数 的 优化 。 比 如 , R 
类 中 样本 与 所 属 类 别 中 心 距离 的 最 小 化 ， 降 维 中 样本 从 高 维 空间 转换 到 低 维 空间 过 程 
中 信息 损失 的 最 小 化 , 概率 模型 估计 中 模型 生成 数据 概率 的 最 大 化 。 

算法 通常 是 迭代 算法 , 通过 夫 代 达到 目标 函数 的 最 优化 ， 比 如 , 梯度 下 降 法 。 

层次 聚 类 法 、 均值 聚 类 是 硬 聚 类 方法 ， 高 斯 混合 模型 EM 算法 是 软 聚 类 方法 。 
主 成 分 分 析 、 潜 在 语义 分 析 是 降 维 方法 。 概 率 潜在 语义 分 析 、 潜 在 犹 利克 雷 分 配 是 概 
率 模型 估计 方法 。 
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1. 聚 类 

聚 类 主要 用 于 数据 分 析 , 也 可 以 用 于 监督 学 习 的 前 处 理 。 聚 类 可 以 帮助 发 现 数据 
中 的 统计 规律 。 数 据 通常 是 连续 变量 表示 的 ,也 可 以 是 离散 变量 表示 的 。 第 14 章 将 讲 
述 聚 类 方法 , 包括 层次 聚 类 入 均值 聚 类 。 

表 13.1 给 出 一 个 简单 的 数据 集合 。 有 5 个 样本 A, B, C D, E, 每 个 样本 有 二 维 
特征 x1, £20 K 13.5 显示 样本 在 二 维 实数 空间 的 位 置 。 通过 聚 类 算法 , 可 以 将 样本 分 
配 到 两 个 类 别 中 。 假设 用 均值 聚 类 , k = 2。 开始 可 以 取 任 意 两 点 作为 两 个 类 的 中 
心 ; 依据 样本 与 类 中 心 的 欧 氏 距离 的 大 小 将 样本 分 配 到 两 个 类 中 ; 然后 计算 两 个 类 中 
样本 的 均值 , 作为 两 个 类 的 新 的 类 中 心 ; 重复 以 上 操作 , 直到 两 类 不 再 改变 , 最 后 得 到 
聚 类 结果 ，A、B、C 为 一 个 类 , D, E 为 另 一 个 类 。 


表 13.1 RAGE 
A B C 
Tı 1 1 0 2 3 
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xah 


图 13.5 RRHER 


2. 降 维 

降 维 主要 用 于 数据 分 析 , 也 可 以 用 于 监督 学 习 的 前 处 理 。 降 维 可 以 帮助 发 现 高 维 
数据 中 的 统计 规律 。 数 据 是 连续 变量 表示 的 。 第 16 章 介绍 降 维 方法 的 主 成 分 分 析 ， 
第 15 章 介绍 基础 的 奇异 值 分 解 。 

表 13.2 给 出 一 个 简单 的 数据 集合 。 有 14 个 样本 A、B、C、D 等 , 每 个 样本 有 9 
维特 征 zl, z2,… ,z9。 由 于 数据 是 高 维 (多 变量 ) 数据 ,很 难 观察 变量 的 样本 区 分 能 
Th, 也 很 难 观 察 样 本 之 间 的 关系 。 比 如 样本 表示 细胞 , 特征 表示 细胞 中 的 指标 。 从 数 
据 中 很 难 直 接 观 察 到 哪些 变量 能 帮助 区 分 细胞 ,哪些 细胞 相似 , 哪些 细胞 不 相似 。 对 
数据 进行 降 维 , 如 主 成 分 分 析 , 就 可 以 更 直接 地 分 析 以 上 问题 。 图 13.6 显示 对 样本 集 


表 13.2 RİR 

A B (E D 
x1 3 0.25 2.8 0.1 
T2 2.9 0.8 2.2 1.8 
T3 2.2 1 1.5 3.2 
za 2 1.4 2 0.3 
z5 1.3 1.6 1.6 0 
ze 1.5 2 2.1 3 
z7 íi 2.2 1.2 2.8 
rg 1 2.7 0.9 0.3 


£9 0.4 3 0.6 0.1 ae 
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合 进行 降 维 ( 主 成 分 分 析 ) 的 结果 。 结果 在 新 的 二 维 实数 空间 中 , 有 二 维新 的 特征 y, 


Y2» 


14 个 样本 分 布 在 不 同位 置 。 通过 降 维 , 可 以 发 现 样本 可 以 分 为 三 个 类 别 。 二 维新 


特征 由 原始 特征 定义 。 


A 
Sg 


=- 


Fi 
图 13.6 KHE ( 主 成 分 分 析 ) 的 结果 


3. 话题 分 析 
话题 分 析 是 文本 分 析 的 一 种 技术 。 给 定 一 个 文本 集合 ， 话 题 分 析 旨 在 发 现 文本 集 
Ph 每 个 文本 的 话题 ， 而 话题 由 单词 的 集合 表示 。 注意 , 这 里 假设 有 足够 数量 的 文本 ， 


如 果 只 有 一 个 文本 或 几 个 文本 , 是 不 能 做 话题 分 析 的 。 话 题 分 析 可 以 形式 化 为 概率 模 
型 估计 问题 , 或 降 维 问题 。 第 17、18、20 章 分 别 介绍 话题 分 析 方法 的 潜在 语义 分 析 、 
概率 潜在 语义 分 析 、 潜在 狄 利克 雷 分 配 。 第 19 章 介 绍 基础 的 马尔 可 夫 链 蒙特 卡 罗 法 。 


表 13.3 给 出 一 个 文本 数据 集合 。 有 6 个 文本 , 6 个 单词 , 表 中 数字 表示 单词 在 文 


本 中 的 出 现 次 数 。 对 数据 进行 话题 分 析 , 如 LDA 分 析 , 得 到 由 单词 集合 表示 的 话题 ， 
以 及 由 话题 集合 表示 的 文本 。 如 表 13.4 所 示 , 具体 地 话题 表示 为 单词 的 概率 分 布 , 文 
本 表示 为 话题 的 概率 分 布 。LDA 是 含有 这 些 概率 分 布 的 模型 。 直观 上 , 一 个 话题 包含 
语义 相似 的 单词 。 一 个 文本 包含 若干 个 话题 。 


表 13.3 ”话题 分 析 的 数据 


单词 docl doc2 doc3 doc4 doc5 doc6 
word1 1 1 
word2 1 1 
word3 1 1 
word4 1 1 
word5 1 1 
word6 Å 1 
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表 13.4 ”话题 分 析 (LDA 分 析 ) 的 结果 
话题 


单词 topicl topicl topic2 
word] 0.33 iL 0 
word2 0.33 1 0 
word3 0.33 1 0 
word4 0 0 1 
word5 0 0 1 
word6 0 0 1 
4. 图 分 析 


很 多 应 用 中 的 数据 是 以 图 的 形式 存在 , 图 数据 表示 实体 之 间 的 关系 , 包括 有 向 图 、 
无 向 图 、 超 图 。 图 分 析 (graph analytics) 的 目的 是 发 掘 隐藏 在 图 中 的 统计 规律 或 潜 
在 结构 。 链 接 分 析 Cink analysis) 是 图 分 析 的 一 种 , 包括 PageRank 算法 , 主要 是 发 
现 有 向 图 中 的 重要 结 点 。 第 21 章 介 绍 PageRank 算法 。 

PageRank 算法 是 无 监督 学 习 方法 。 给 定 一 个 有 向 图 , 定义 在 图 上 的 随机 游 走 即 马 
尔 可 夫 链 。 随 机 游 走 者 在 有 向 图 上 随机 跳 转 , 到 达 一 个 结 点 后 以 等 概率 跳 转 到 链接 出 
去 的 结 点 , 并 不 断 持续 这 个 过 程 。 PageRank 算法 就 是 求解 该 马尔 可 夫 链 的 平稳 分 布 
的 算法 。 一 个 结 点 上 的 平稳 概率 表示 该 结 点 的 重要 性 , 称 为 该 结 点 的 PageRank 值 。 
被 指向 的 结 点 越 多 , 该 结 点 的 PageRank 值 就 越 大 ; 被 指向 的 结 点 的 PageRank 值 越 
K, 该 结 点 的 PageRank 值 就 越 大 。 直观 上 PageRank 值 越 大 结 点 也 就 越 重 要 。 

这 里 简单 介绍 PageRank 的 原理 。 图 13.7 是 一 个 简单 的 有 向 图 ， 有 4 个 结 点 
A, B, C, D, 给 定 这 个 图 , PageRank 算法 通过 迭代 求 出 结 点 的 PageRank 值 。 首 先 ， 
对 每 个 结 点 的 概率 值 初始 化 , 表示 各 个 结 点 的 到 达 概 率 , 假设 是 等 概率 的 。 下 一 步 ， 
各 个 结 点 的 概率 是 上 一 步 各 个 结 点 可 能 跳 转 到 该 结 点 的 概率 之 和 , AN TIER, 各 个 结 
点 的 到 达 概 率 分 布 趋 于 平稳 分 布 , 也 就 是 PageRank 值 的 分 布 。 和 迭代 过 程 如 表 13.5 所 
示 。 可 以 看 出 结 点 C, D 的 PageRank 值 更 大 。 


图 13.7 有 向 图 数据 


表 13.5 PageRank 计算 的 结果 


第 1 步 第 2 步 第 3 步 
A 1/4 2/24 3/24 
B 1/4 5/24 4/24 
C 1/4 9/24 9/24 
D 1/4 8/24 8/24 


PageRank 算法 最 初 是 为 互联 网 搜索 而 提出 。 可 以 将 互联 网 看 作 是 一 个 巨大 的 
有 向 图 ， 网 页 是 结 点 ， 网 页 的 超 链 接 是 有 向 边 。PageRank 算法 可 以 算出 网 页 的 
PageRank 值 , 表示 其 重要 度 , 在 搜索 引擎 的 排序 中 网 页 的 重要 度 起 着 重要 作用 。 


本 章 概 要 


1. 机 器 学 习 或 统计 学 习 一 般 包括 监督 学 习 、 无 监督 学 习 、 强 化 学 习 。 

无 监督 学 习 是 指 从 无 标注 数据 中 学 习 模型 的 机 器 学 习 问 题 。 无 标注 数据 是 自然 得 
到 的 数据 , 模型 表示 数据 的 类 别 、 转 换 或 概率 。 无 监督 学 习 的 本 质 是 学 习 数据 中 的 统 
计 规 律 或 潜在 结构 ， 主 要 包括 聚 类 、 降 维 、 概 率 估计 。 

2. 无 监督 学 习 可 以 用 于 对 已 有 数据 的 分 析 , 也 可 以 用 于 对 未 来 数据 的 预测 。 学 习 
得 到 的 模型 有 函数 z = g(z), 条 件 概 率 分 布 P(z|z), 或 条 件 概率 分 布 P(z|z)。 

无 监督 学 习 的 基本 想法 是 对 给 定数 据 矩阵 数据 ) 进行 某 种 “压缩 ”， 从 而 找到 数 
据 的 潜在 结构 ,假定 损失 最 小 的 压缩 得 到 的 结果 就 是 最 本 质 的 结构 。 可 以 考虑 发 掘 数 
据 的 纵向 结构 ， 对 应 聚 类 。 也 可 以 考虑 发 掘 数据 的 横向 结构 ， 对 应 降 维 。 还 可 以 同时 
考虑 发 掘 数据 的 纵向 与 横向 结构 ， 对 应 概率 模型 估计 。 

3. 聚 类 是 将 样本 集合 中 相似 的 样本 《实例 ) 分 配 到 相同 的 类 , 不 相似 的 样本 分 配 
到 不 同 的 类 。 聚 类 分 硬 聚 类 和 软 聚 类 。 聚 类 方法 有 层次 聚 类 和 大 均值 聚 类 。 

4. 降 维 是 将 样本 集合 中 的 样本 (实例) 从 高 维 空间 转换 到 低 维 空间 。 假设 样本 原 
本 存在 于 低 维 空间 , 或 近似 地 存在 于 低 维 空间 , 通过 降 维 则 可 以 更 好 地 表示 样本 数据 
的 结构 ， 即 更 好 地 表示 样本 之 间 的 关系 。 降 维 有 线性 降 维 和 非 线性 降 维 ， 降 维 方法 有 
主 成 分 分 析 。 

5. 概率 模型 估计 假设 训练 数据 由 一 个 概率 模型 生成 , 同时 利用 训练 数据 学 习 概率 
模型 的 结构 和 参数 。 概 率 模型 包括 混合 模型 、 概 率 图 模型 等 。 概率 图 模型 又 包括 有 向 
图 模型 和 无 向 图 模型 。 

6. 话题 分 析 是 文本 分 析 的 一 种 技术 。 给 定 一 个 文本 集合 ,话题 分 析 旨 在 发 现 文本 
集合 中 每 个 文本 的 话题 ， 而 话题 由 单词 的 集合 表示 。 话 题 分 析 方 法 有 潜在 语义 分 析 、 
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概率 潜在 语义 分 析 和 潜在 狄 利克 雷 分 配 。 


7. 图 分 析 的 目的 是 发 掘 隐藏 在 图 中 的 统计 规律 或 潜在 结构 。 链 接 分 析 是 图 分 析 的 


一 种 , 主要 是 发 现 有 向 图 中 的 重要 结 点 , 包括 PageRank 算法 。 


继续 阅读 


无 监督 学 习 在 主要 的 机 器 学 习 书 籍 [1-7] 中 都 有 介绍 , 可 以 参考 。 
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第 14 章 BEAK 


聚 类 是 针对 给 定 的 样本 , 依据 它们 特征 的 相似 度 或 距离 , 将 其 归并 到 若干 个 “类 ” 
或 “ 悉 ” 的 数据 分 析 问 题 。 一 个 类 是 给 定 样本 集合 的 一 个 子 集 。 直观 上 , 相似 的 样本 聚 
集 在 相同 的 类 , 不 相似 的 样本 分 散在 不 同 的 类 。 这里, 样本 之 间 的 相似 度 或 距离 起 着 
重要 作用 。 

聚 类 的 目的 是 通过 得 到 的 类 或 秘 来 发 现 数据 的 特点 或 对 数据 进行 处 理 , 在 数据 挖 
掘 、 模 式 识 别 等 领域 有 着 广泛 的 应 用 。 聚 类 属于 无 监督 学 习 ， 因 为 只 是 根据 样本 的 相 
似 度 或 距离 将 其 进行 归 类 , 而 类 或 簇 事先 并 不 知道 。 

聚 类 算法 很 多 , 本章 介 绍 两 种 最 常用 的 聚 类 算法 : 层次 聚 类 (hierarchical cluster- 
ing) FI k 均值 聚 类 (k-means clustering) 。 层 次 聚 类 又 有 聚合 ( 自 下 而 上 ) 和 分 裂 〈 自 
上 而 下 ) 两 种 方法 。 聚 合法 开始 将 每 个 样本 各 自分 到 一 个 类 ; 之 后 将 相距 最 近 的 两 类 
合并 , 建立 一 个 新 的 类 , 重复 此 操作 直到 满足 停止 条 件 ; 得 到 层次 化 的 类 别 。 分 裂 法 
开始 将 所 有 样本 分 到 一 个 类 ; 之 后 将 已 有 类 中 相距 最 远 的 样本 分 到 两 个 新 的 类 , 重复 
此 操作 直到 满足 停止 条 件 ; 得 到 层次 化 的 类 别 。k 均值 聚 类 是 基于 中 心 的 聚 类 方法 ， 
WER, 将 样本 分 到 个 类 中 ,使 得 每 个 样本 与 其 所 属 类 的 中 心 或 均值 最 近 ; 得 到 
k 个 “平坦 的 ”、 非 层次 化 的 类 别 , 构成 对 空间 的 划分 。k 均值 聚 类 的 算法 1967 年 由 
MacQueen 提出 。 

ASHE 14.1 节 介 绍 聚 类 的 基本 概念 ，14.2 WA 14.3 节 分 别 叙 述 层 次 聚 类 和 均值 
RK. 


14.1 聚 类 的 基本 概念 


本 节 介 绍 聚 类 的 基本 概念 , 包括 样本 之 间 的 距离 或 相似 度 ， 类 或 能 ， 类 与 类 之 间 
的 距离 。 


14.1.1 ”相似 度 或 距离 
聚 类 的 对 象 是 观测 数据 , 或 样本 集合 。 假设 有 n 个 样本 , 每 个 样本 由 m 个 属性 的 
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特征 向 量 组 成 。 样 本 集合 可 以 用 矩阵 头 表示 


TI11 T12 Tin 
T21 T22 Zan 

X = [Bijlaxn = : (14.1) 
Tml Tm2 `’ Tmn 


矩阵 的 第 7 列表 示 第 7 SPEAR, j= 1,2,… ,n; Bi 行 表示 第 i 个 属性 ,i 
1,2,… m; 矩阵 元 素 zij 表示 第 7 个 样本 的 第 i 个 属性 值 , i = 1,2,…,m; j= 
二 

聚 类 的 核心 概念 是 相似 度 (similarity) 或 距离 (distance) ， 有 多 种 相似 度 或 距离 
的 定义 。 因 为 相似 度 直接 影响 聚 类 的 结果 ,所 以 其 选择 是 聚 类 的 根本 问题 。 具 体 哪 种 
相似 度 更 合适 取决 于 应 用 问题 的 特性 。 

1. 闵可夫 斯 基 距 离 中 

TERA, 可 以 将 样本 集合 看 作 是 向 量 空间 中 点 的 集合 ， 以 该 空间 的 距离 表示 样 
本 之 间 的 相似 度 。 常 用 的 距离 有 闵可夫 斯 基 距 离 , 特别 是 欧 氏 距离 。 闵 可 夫 斯 基 距 离 
越 大 相似 度 越 小 , 距离 越 小 相似 度 越 大 。 

定义 14.1 给 定 样本 集合 X, X 是 mm 维 实数 向 量 空间 Rm 中 点 的 集合 ， 其 中 
Ti Ti E X, Ti = (Tri, 22i Tmi) rT, £j = (Z1j)Z21 Imj) ŽA zi 与 样本 2; 
的 闵可夫 斯 基 距 离 (Minkowski distance ) 定义 为 


Dp 
dij = (= loki — nut) (14.2) 


k=1 


RE p>. 4 p=2 时 称 为 欧 氏 距离 ( Euclidean distance), FP 


1 
m 2 
dij = 区 [Dei 一 nut) (14.3) 
k=1 
当 p==1 时 称 为 曼哈顿 距离 (Manhattan distance), PP 
dij = Ñ eas — zn (14.4) 
k=1 


ž p= co 时 称 为 切 比 雪夫 距离 (Chebyshev distance ) ， 取 各 个 坐标 数值 差 的 绝对 值 
的 最 大 值 ， 即 


dij = max |rKi — Tr5| (14.5) 


© 在 第 3 章 叙述 了 闵可夫 斯 基 距 离 , 现 重 述 ,记号 有 所 改变 。 


14.1 聚 类 的 基本 概念 257 


2. 马 哈 拉 诺 比 斯 距离 


马 哈 拉 诺 比 斯 距离 (Mahalanobis distance)， 简称 马 氏 距离 , 也 是 另 一 种 常用 的 
相似 度 , 考虑 各 个 分 量 (特征 ) 之 间 的 相关 性 并 与 各 个 分 量 的 尺度 无 关 。 马 哈 拉 诺 比 
斯 距离 越 大 相似 度 越 小 , 距离 越 小 相似 度 越 大 。 


定义 14.2 给 定 一 个 样本 集合 X，X = [wij]mxn， 其 协 方差 矩阵 记 作 S. 样本 zi 
与 样本 zj 之 间 的 马 哈 拉 诺 比 斯 距离 dij 定义 为 


IF 


dij = [(zi = zj)” S (z; = zj;)] (14.6) 


其 中 


Ti = (Ziri, Tzi, Emi)? Tj = (Tij, 225; gi Ema)” (14.7) 


当 5 为 单位 矩阵 时 ， 即 样本 数据 的 各 个 分 量 互相 独立 且 各 个 分 量 的 方差 为 1 时 ， 
由 式 (14.6) 知 马 氏 距 离 就 是 欧 氏 距离 , 所 以 马 氏 距离 是 欧 氏 距离 的 推广 。 


3. 相关 系数 


样本 之 间 的 相似 度 也 可 以 用 相关 系数 (correlation coefficient) 来 表示 。 相 关系 数 
的 绝对 值 越 接近 于 1, 表示 样本 越 相似 ; 越 接 近 于 0, 表示 样本 越 不 相似 。 


定义 14.3 样本 zi 与 样本 zj 之 间 的 相关 系数 定义 为 


>》 (wei — 3i) (zk; — 23) 


Tij = 1 (14.8) 
m m 2 
D (Tri — i)? D (zy; — B;)* 
k=1 k=1 
其 中 
1 这 1 这 
Zi = = D Tki Zj = D Tk 
k=l k=1 
4. 夹 角 余弦 


样本 之 间 的 相似 度 也 可 以 用 夹 角 余弦 (cosine) 来 表示 。 来 角 余 弦 越 接近 于 1, 表 
示 样 本 越 相似 ; 越 接 近 于 0, 表示 样本 越 不 相似 。 
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定义 14.4 样本 zi 与 样本 zj 之 间 的 夹 角 余弦 定义 为 


PETE E (14.9) 


1 上 述 定 义 看 出 ， 用 距离 度量 相似 度 时 ,距离 越 小 样本 越 相似 ; 用 相关 系数 时 ， 
相关 系数 越 大 样本 越 相似 。 注意 不 同 相 似 度 度量 得 到 的 结果 并 不 一 定 一 致 。 请 参照 
图 14.1。 


Bom | 


图 14.1 ”距离 与 相关 系数 的 关系 


从 图 上 可 以 看 出 , 如 果 从 距离 的 角度 看 , A 和 B 比 4 和 C 更 相似 ; 但 从 相关 系 
数 的 角度 看 , AAC HE AMB 更 相似 。 所 以 , 进行 聚 类 时 , 选择 适合 的 距离 或 相似 
度 非 常 重要 。 


14.1.2 XR 


通过 聚 类 得 到 的 类 或 能 ,本 质 是 样本 的 子 集 。 如 果 一 个 聚 类 方法 假定 一 个 样本 只 
能 属于 一 个 类 , 或 类 的 交集 为 空 集 ， 那 么 该 方法 称 为 硬 聚 类 Chard clustering) 方法 。 
和 否则， 如果 一 个 样本 可 以 属于 多 个 类 , 或 类 的 交集 不 为 空 集 ， 那 么 该 方法 称 为 软 聚 
类 (soft clustering) 方法 。 本 章 只 考虑 硬 聚 类 方法 。 
用 G 表示 类 或 徐 (cluster) ,用 aj, xj 表示 类 中 的 样本 , 用 ng 表示 G 中 样本 的 
个 数 , 用 di; 表示 样本 ri 与 样本 zj 之 间 的 距离 。 类 或 艇 有 多 种 定义 , 下 面 给 出 几 个 常 
见 的 定义 。 
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定义 14.5 设 了 为 给 定 的 正 数 ， 若 集合 G 中 任意 两 个 样本 riri A 
di; ST 


WAR G A-* KBAR. 

EX 14.6 设 人 为 给 定 的 正 数 ， 若 对 集合 G 的 任意 样本 ro -RAEG PHA 
一 个 样本 zj， 使 得 

dij Er 

MAR G A-NAK. 

EX 14.7 设 了 为 给 定 的 正 数 ， 若 对 集合 G 中 任意 一 个 样本 zi，G 中 的 另 一 个 

ng-1 Xs <r 

其 中 ng AG 中 样本 的 个 数 ， 则 称 G 为 一 个 类 或 徐 。 

定义 14.8 TEV 为 给 定 的 两 个 正 数 ， 如 果 集合 G 中 任意 两 个 样本 zi;Zj 的 
距离 dij 满足 

eT 


TiEG TjEG 


dij <V 
则 称 G 为 一 个 类 或 徐 。 
以 上 四 个 定义 , 第 一 个 定义 最 常用 , 并 且 由 它 可 推出 其 他 三 个 定义 。 
类 的 特征 可 以 通过 不 同 角度 来 刻画 , 常用 的 特征 有 下 面 三 种 : 
(1) 类 的 均值 5c， 又 称 为 类 的 中 心 


ZG=—) 2; (14.10) 
HH nc 是 类 G 的 样本 个 数 。 


(2) 类 的 直径 (diameter) Dg 
类 的 直径 DG 是 类 中 任意 两 个 样本 之 间 的 最 大 距离 ， 即 


De = maxa dij (14.11) 


Ti TJE 


(3) 类 的 样本 散布 矩阵 〈scatter matrix) Ag 与 样本 协 方差 矩阵 〈covariance 


matrix) SG 


类 的 样本 散布 矩阵 4c 为 
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4c = 5 (zi — Be) (ai -za)" 


{l 


样本 协 方差 矩阵 SG 为 


-yc 一 acjlzi — ze)" 


i=1 


其 中 m 为 样本 的 维 数 (样本 属性 的 个 数 )。 


14.1.3 ”类 与 类 之 间 的 距离 


(14.12) 


(14.13) 


下 面 考虑 类 G, 与 类 G 之 间 的 距离 D(p,g), 也 称 为 连接 (linkage) 。 类 与 类 之 间 


的 距离 也 有 多 种 定义 。 


BR Go 包含 np MER, Gy 包含 ne 个 样本 , DAA Zp 和 zo 表示 Gp MG, 的 


均值 ,， 即 类 的 中 心 。 
(1) 最 短 距离 或 单 连 接 (single linkage) 
定义 类 Gy 的 样本 与 Go 的 样本 之 间 的 最 短 距离 为 两 类 之 间 的 距离 


Dpg = min {dij|zi € Gop, Ti € Gy} 


(2) 最 长 距离 或 完全 连接 (complete linkage) 
定义 类 Gp 的 样本 与 Go 的 样本 之 间 的 最 长 距离 为 两 类 之 间 的 距离 


Dpg = max {dij |r; € Gp, Tj € Ga} 


(3) 中 心 距离 
定义 类 G 与 类 G 的 中 心 Z, 与 Za 之 间 的 距离 为 两 类 之 间 的 距离 


Dp = dzpza 


(4) 平均 距离 


定义 类 Gp 与 类 Gq 任意 两 个 样本 之 间距 离 的 平均 值 为 两 类 之 间 的 距离 


1 
Dpq = Npn > D dij 


ZiEGp TjEGq 


(14.14) 


(14.15) 


(14.16) 


(14.17) 
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1442 层次 聚 类 


层次 聚 类 假设 类 别 之 间 存 在 层次 结构 ， 将 样本 聚 到 层次 化 的 类 中 。 层 次 聚 类 又 
有 聚合 (agglomerative) 或 自 下 而 上 (bottom-up) 聚 类 、 分 裂 〈divisive) 或 自 上 而 
F (top-down) 聚 类 两 种 方法 。 因 为 每 个 样本 只 属于 一 个 类 ,所 以 层次 聚 类 属于 硬 
RK. 

聚合 聚 类 开始 将 每 个 样本 各 自分 到 一 个 类 ; 之 后 将 相距 最 近 的 两 类 合并 , 建立 一 
个 新 的 类 , 重复 此 操作 直到 满足 停止 条 件 ; 得 到 层次 化 的 类 别 。 分 裂 聚 类 开始 将 所 有 
样本 分 到 一 个 类 ; 之 后 将 已 有 类 中 相距 最 远 的 样本 分 到 两 个 新 的 类 , 重复 此 操作 直到 
满足 停止 条 件 ; 得 到 层次 化 的 类 别 。 本 书 只 介绍 聚合 聚 类 。 

聚合 聚 类 的 具体 过 程 如 下 : 对 于 给 定 的 样本 集合 ,， 开始 将 每 个 样本 分 到 一 个 类 ; 
然后 按照 一 定 规则 , 例如 类 间距 离 最 小 , 将 最 满足 规则 条 件 的 两 个 类 进行 合并 ; 如 此 
反复 进行 ,每 次 减少 一 个 类 , 直到 满足 停止 条 件 , 如 所 有 样本 聚 为 一 类 。 
1 此 可 知 , 聚合 聚 类 需要 预先 确定 下 面 三 个 要 素 : 

(1) 距离 或 相似 度 ; 

(2) 合并 规则 ; 

(3) 停止 条 件 。 

根据 这 些 要 素 的 不 同 组 合 , 就 可 以 构成 不 同 的 聚 类 方法 。 距 离 或 相似 度 可 以 是 闵 
可 夫 斯 基 距 离 、 马 哈 拉 诺 比 斯 距离 、 相 关系 数 、 夹 角 余 弦 。 合 并 规则 一 般 是 类 间距 离 
最 小 , 类 间距 离 可 以 是 最 短 距 离 、 最 长 距离 、 中 心 距 离 、 平 均 距 离 。 停 止 条 件 可 以 是 类 
的 个 数 达 到 阔 值 (极端 情况 类 的 个 数 是 1)、 类 的 直径 超过 阔 值 。 

如 果 采 用 欧 氏 距离 为 样本 之 间距 离 ; 类 间距 离 最 小 为 合并 规则 , 其 中 最 短 距离 为 
类 间距 离 ， 类 的 个 数 是 1,， 即 所 有 样本 聚 为 一 类 , 为 停止 条 件 ， 那么 聚合 聚 类 的 算法 
如 下 。 

算法 14.1 (聚合 聚 类 算法 ) 

输入 : n 个 样本 组 成 的 样本 集合 及 样本 之 间 的 距离 ; 

输出 : 对 样本 集合 的 一 个 层次 化 聚 类 。 

(1) 计算 n 个 样本 两 两 之 间 的 欧 氏 距离 {dij} 记 作 和 矩阵 D = [dij]jnxn。 

(2) 构造 m 个 类 , 每 个 类 只 包含 一 个 样本 。 

(3) 合并 类 间距 离 最 小 的 两 个 类 , 其 中 最 短 距离 为 类 间距 离 , 构建 一 个 新 类 。 

(4) 计算 新 类 与 当前 各 类 的 距离 。 若 类 的 个 数 为 1, 终止 计算 , 否则 回 到 步 (3)。 国 

可 以 看 出 聚合 层次 聚 类 算法 的 复杂 度 是 O(n3m), 其 中 m 是 样本 的 维 数 , n 是 样 
本 个 数 。 
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下 面 通过 一 个 例子 说 明 聚 合 层次 聚 类 算法 。 
例 14.1 给 定 5 个 样本 的 集合 , 样本 之 间 的 欧 氏 距离 由 如 下 矩阵 D 表示 : 


D = [dij]sxs = 


w ONY N oO 
a Aà a O N 


2 
5 
0 
8 
1 


a oc wo ẹ © 
oot F QO U 


其 中 di 表示 第 i 个 样本 与 第 j 个 样本 之 间 的 欧 氏 距离 。 显 然 D AIEE. IR 
合 层次 聚 类 法 对 这 5 个 样本 进行 聚 类 。 

E (1) 首先 用 5 个 样本 构建 5 个 类 , G; = {ri} i = 1,2,… ,5, 这 样 , 样本 之 
间 的 距离 也 就 变 成 类 之 间 的 距离 , 所 以 5 个 类 之 间 的 距离 矩阵 亦 为 Do 


(2) 由 矩阵 D 可 以 看 出 ，Das = Dss = 1 为 最 小 , 所 以 把 G3 和 Gs 合并 为 一 个 
新 类 ， 记 作 Ge = {x3, T5} 


(3) 计算 Ge 5 Gi, Go Ga 之 间 的 最 短 距离 , 有 


Deo. =2, Des=5, Dos =5 


又 注意 到 其 余 两 类 之 间 的 距离 是 


Dis=7, Dis=9, Doar =4 


显然 ，D6l = 2 最 小 , 所 以 将 Gi 与 G6 合并 成 一 个 新 类 , WE G7 = {21,273,205}. 
(4) 计算 Gy 与 Gz，G4 之 间 的 最 短 距 离 ， 
Dn =5, Dy =5 
又 注意 到 
Dog = 4 
显然 , 其 中 Dog = 4 最 小 , 所 以 将 Ga 与 G4 合并 成 一 新 类 , WE Gs = {x2, 24} 


(5) 将 Gy 与 Gs 合并 成 一 个 新 类 , 记 作 Ge = {z1, 02,03, 04,75}> 即将 全 部 样本 
聚 成 1 类 , 聚 类 终止。 站 


上 述 层 次 聚 类 过 程 可 以 用 下 面 的 层次 聚 类 图 表示 。 
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Go 


Gs 


Gy 


Ge 


GG GQ G G 
图 14.2 ”层次 聚 类 图 


14.3 k SBR 


k SARA EIE TARA LID RAGE. k 均值 聚 类 将 样本 集合 划分 为 大 个 
TR, 构成 k 个 类 , 将 n 个 样本 分 到 大 个 类 中 , 每 个 样本 到 其 所 属 类 的 中 心 的 距离 最 
小 。 每 个 样本 只 能 属于 一 个 类 , 所 以 大 均值 聚 类 是 硬 聚 类 。 下 面 分 别 介绍 均值 聚 类 
的 模型 、 策 略 、 算法, 讨论 算法 的 特性 及 相关 问题 。 


14.3.1 模型 


给 定 m 个 样本 的 集合 X = {zi1,72,… ,zn}， 每 个 样本 由 一 个 特征 向 量 表示 ， 
特征 向 量 的 维 数 是 m。k 均值 聚 类 的 目标 是 将 n 个 样本 分 到 个 不 同 的 类 或 徐 
中 ,这 里 假设 k < n k NR G1,G2,… ,Gk 形成 对 样本 集合 X 的 划分 ， 其 中 

k 
GinGi =Ø, |] Gi =X. 用 C 表示 划分 , 一 个 划分 对 应 着 一 个 聚 类 结果 。 
i=1 

划分 C 是 一 个 多 对 一 的 函数 。 事 实 上 ， 如 果 把 每 个 样本 用 一 个 整数 i C 
{1,2,… ,n} 表示 ,每 个 类 也 用 一 个 整数 1 e {1,2,:… ,k} 表示 ,那么 划分 或 者 聚 
类 可 以 用 函数 1 = C(i) 表示 , 其 中 ie {1,2,--- ,n}, Le {1,2,… ,k}。 所 以 上 WH 
类 的 模型 是 一 个 从 样本 到 类 的 函数 。 


14.3.2 ”策略 


k 均值 聚 类 归结 为 样本 集合 X 的 划分 , 或 者 从 样本 到 类 的 函数 的 选择 问题 。k 均 
值 聚 类 的 策略 是 通过 损失 函数 的 最 小 化 选取 最 优 的 划分 或 函数 C* 。 

首先 ， 采 用 欧 氏 距离 平方 (squared Euclidean distance) 作为 样本 之 间 的 距离 
d(xi, £j) 
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dleie) = > (Gri =ar) 
p= 
= zi — z;l? (14.18) 


然后 , 定义 样 本 与 其 所 属 类 的 中 心 之 间 的 距离 的 总 和 为 损失 函数 ， 即 


k 
WwW(C)= > YS lle- zl? (14.19) 


l=1 C(i)=! 


RP Z = (ia Fm)? 是 第 1 个 类 的 均值 或 中 心 , m = X (0l) =), 


i=1 
T(C(i) = 1) 是 指示 函数 , 取 值 为 1 或 0。 函数 W(C) 也 称 为 能 量 , 表示 相同 类 中 的 样 
本 相似 的 程度 。 
k 均值 聚 类 就 是 求解 最 优化 问题 : 


C* =arg min w(C) 


k 
= arg min > ， > lz: — zll? (14.20) 


l=1 C(i)=l 


相似 的 样本 被 聚 到 同类 时 ， 损 失 函 数值 最 小 , 这 个 目标 函数 的 最 优化 能 达到 聚 类 
的 目的 。 但 是 , 这 是 一 个 组 合 优化 问题 , n 个 样本 分 到 类, 所 有 可 能 分 法 的 数目 是 : 


k 
S(n,k) = (17( ae (14.21) 


这 个 数字 是 指数 级 的 。 事实 上 , 均值 聚 类 的 最 优 解 求解 问题 是 NP 困难 问题 。 现 实 
中 采用 迭代 的 方法 求解 。 


1433 ”算法 
均值 聚 类 的 算法 是 一 个 迭代 的 过 程 , 每 次 欠 代 包括 两 个 步骤 。 首 先 选择 大 个 类 的 
中 心 ， 将 样本 逐个 指派 到 与 其 最 近 的 中 心 的 类 中 ， 得 到 一 个 聚 类 结果 ; 然后 更 新 每 个 类 
的 样本 的 均值 ,作为 类 的 新 的 中 心 ; 重复 以 上 步 又, 直到 收敛 为 止 。 具体 过 程 如 下 。 
首先 , 对 于 给 定 的 中 心 值 (mz, mz,…, mg)» 求 一 个 划分 C, 使 得 目标 函数 极 小 化 : 


k 
min > lai — mil? (14.22) 


1=1 C(i)=l 
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就 是 说 在 类 中 心 确定 的 情况 下 , 将 每 个 样本 分 到 一 个 类 中 , 使 样本 和 其 所 属 类 的 中 心 
之 间 的 距离 总 和 最 小 。 求 解 结果 , 将 每 个 样本 指派 到 与 其 最 近 的 中 心 mi 的 类 Gi 中 。 
然后 , 对 给 定 的 划分 C， 再 求 各 个 类 的 中 心 (ma,m2,…… ,mk)， 使 得 目标 函数 极 


小 化 : 
i Bs fe 


l=1 C(i)=1 


就 是 说 在 划分 确定 的 情况 下 , 使 样本 和 其 所 属 类 的 中 心 之 间 的 距离 总 和 最 小 。 求 解 结 
R, 对 于 每 个 包含 ni 个 样本 的 类 Gr, 更 新 其 均值 m: 


J ig 


攻 复 以 上 两 个 步骤 ,直到 划分 不 再 改变 ,得 到 聚 类 结果 。 现 将 k ERREEN 


述 如 
算法 14.2 Ck 均值 聚 类 算法 ) 

输入 : n 个 样本 的 集合 X; 

输出 : 样本 集合 的 聚 类 C。。 

(1) 初始 化 。 令 上 = 0， 随 机 选择 k 个 样本 点 作为 初始 聚 类 中 心 mO = 
(mY), ml), a m). 

(2) 对 样本 进行 聚 类 。 对 固定 的 类 中 心 mY = (m, mË,- mM), 其 中 
ml 为 类 Gy 的 中 心 , 计算 每 个 样本 到 类 中 心 的 距离 , 将 每 个 样本 指派 到 与 其 最 近 的 
中 心 的 类 中 , 构成 聚 类 结果 CO, 

(3) 计算 新 的 类 中 心 。 对 聚 类 结果 CO ,计算 当前 各 个 类 中 的 样本 的 均值 , 作为 新 


的 类 中 心 mdt+D = (mot)... ,m+ os mith), 
(4) WI RGEC BUTE ERE, 输出 C* = CO. 
否则 , &t=t+1, 返回 步 (2)。 B 


k 均值 聚 类 算法 的 复杂 度 是 O(mnk), 其 中 m 是 样本 维 数 , n 是 样本 个 数 , k 是 类 
别 个 数 。 
例 14.2 给 定 含有 5 个 样本 的 集合 


x=-|0015%5 
20002 


J k 均值 聚 类 算法 将 样本 聚 到 2 个 类 中 。 
解 按照 算法 14.2, 


& 


266 第 14 章 RETE 


(1) 选择 两 个 样本 点 作为 类 的 中 心 。 假设 选择 mto) = zi = (0,2)7, mP = zx2 = 
(0,0)T。 

2) Um, mO 4 GO, GO 的 中 心 , 计算 za = (1,0)T, z4 = (5,0)T，z5 = 
(5,2)? 与 a (0, 2), m = (0,0)T 的 欧 氏 距离 平方 。 

对 zs = (1,0)T, d(z£3, mf 9)) = = 5, d(z3, m= =1, 将 zs 分 到 类 Go. 

对 z4 = (5,0)T, d(wg,m) = 29, d(xa,m™) = 25, 将 za 分 到 类 GO. 

对 z5 = (5,2), d(as,m©) = 25, d(zs,m©) = 29, 将 zs HB GO. 

(3) 得 到 新 的 类 GP = {x1, 25}, GP = {2,23 ca}, WERE mY, mP: 


m = (2.5,2.0)7, mS) = (2,0)T 


(4) 重复 步骤 (2) 和 步骤 (3)。 
将 zi 分 到 类 GM, 将 za 分 到 类 GD, r3 分 到 类 GD, za 分 到 类 GP, rs 分 到 
KG, 
得 到 新 的 类 GP = {x1,25}, GP) = {22, 23,04}. 
于 得 到 的 新 的 类 没有 改变 ， 聚 类 停止 。 得 到 聚 类 结果 : 


Gi = {zlz5}， G3 = {z2,73,Z4} a 


14.3.4 ”算法 特性 


1. 总 体 特 点 

k 均值 聚 类 有 以 下 特点 : 基于 划分 的 聚 类 方法 ; 类 别 数 事先 指定 ; 以 欧 氏 距离 
平方 表示 样本 之 间 的 距离 ,以 中 心 或 样本 的 均值 表示 类 别 ; 以 样本 和 其 所 属 类 的 中 心 
之 间 的 距离 的 总 和 为 最 优化 的 目标 函数 ; 得 到 的 类 别 是 平坦 的 、 非 层次 化 的 ; 算法 是 
迭代 算法 , 不 能 保证 得 到 全 局 最 优 。 

2. 收敛 性 

k 均值 聚 类 属于 启发 式 方法 , 不 能 保证 收敛 到 全 局 最 优 , 初始 中 心 的 选择 会 直接 
影响 聚 类 结果 。 注意 , 类 中 心 在 聚 类 的 过 程 中 会 发 生 移动 , 但 是 往往 不 会 移动 太 大 , 因 
为 在 每 一 步 , 样本 被 分 到 与 其 最 近 的 中 心 的 类 中 。 

3. 初始 类 的 选择 

选择 不 同 的 初始 中 心 ,会 得 到 不 同 的 聚 类 结果 。 针 对 上 面 的 例 14.2， 如 果 
改变 两 个 类 的 初始 中 心 ， 比 如 选择 mO = zi 和 mg) = 25, 那么 z2，zs 会 分 
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到 GO, 2, 会 分 到 G4)， 形 成 育 类 结果 GM = {21,202,023}, GP = {24,25} 中 
bÆ m” = (0.33,0.67)T, mM = (5,1)T. 继续 迭代 ， 聚 类 结果 仍然 是 GO = 
{11,22,23} GP = {zaz5}。 聚 类 停止 。 

初始 中 心 的 选择 ， 比 如 可 以 用 层次 聚 类 对 样本 进行 聚 类 ,得 到 k 个 类 时 停止 。 然 
后 从 每 个 类 中 选取 一 个 与 中 心 距离 最 近 的 点 。 

4 类 别 数 的 选择 

k 均值 聚 类 中 的 类 别 数 大 值 需要 预先 指定 , 而 在 实际 应 用 中 最 优 的 值 是 不 知道 
的 。 解决 这 个 问题 的 一 个 方法 是 尝试 用 不 同 的 & ERK, 检验 各 自得 到 聚 类 结果 的 质 
量 , 推测 最 优 的 值 。 聚 类 结果 的 质量 可 以 用 类 的 平均 直径 来 衡量 。 一 般 地 ， 类 别 数 
变 小 时 , 平均 直径 会 增加 ; 类 别 数 变 大 超过 某 个 值 以 后 , 平均 直径 会 不 变 ; 而 这 个 值 正 
是 最 优 的 值 。 图 14.3 说 明 类 别 数 与 平均 直径 的 关系 。 实验 时 , 可 以 采用 二 分 查找 ， 
快速 找到 最 优 的 大 值 。 


最 优 值 


平均 直径 


类 别 数 
图 14.3 ”类 别 数 与 平均 直径 的 关系 


本 章 概 要 


1， 聚 类 是 针对 给 定 的 样本 ,依据 它们 属性 的 相似 度 或 距离 ,将 其 归并 到 若干 
个 “类 ”或 “ 簇 ” 的 数据 分 析 问 题 。 一 个 类 是 样本 的 一 个 子 集 。 直观 上 , 相似 的 样本 聚 
集 在 同类 , 不 相似 的 样本 分 散在 不 同类 。 

2. 距离 或 相似 度 度 量 在 聚 类 中 起 着 重要 作用 。 


常用 的 距离 度量 有 闵可夫 斯 基 距 离 , 包括 欧 氏 距离 、 曼 哈 顿 距离 、 切 比 雪夫 距离 
以 及 马 哈 拉 诺 比 斯 距离 。 常 用 的 相似 度 度 量 有 相关 系数 、 夹 角 余弦 。 
距离 度量 相似 度 时 ,距离 越 小 表示 样本 越 相似 ; 用 相关 系数 时 ， 相 关系 数 越 大 
表示 样本 越 相似 。 

3. 类 是 样本 的 子 集 ， 比 如 有 如 下 基本 定义 : 
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1G RAAB, 用 ro cj 等 表示 类 中 的 样本 , 用 dy 表示 样本 ri 与 样本 zj 之 
间 的 距离 。 如 果 对 任意 的 zi, zj €G, 有 


dy <T 


则 称 G 为 一 个 类 或 通 。 

描述 类 的 特征 的 指标 有 中 心 、 直径 、 散 布 矩阵 、 协 方差 矩阵 。 

4. 聚 类 过 程 中 用 到 类 与 类 之 间 的 距离 也 称 为 连接 。 类 与 类 之 间 的 距离 包括 最 短 距 
离 、 最 长 距离 、 中 心 距离 、 平 均 距离 。 

5. 层次 聚 类 假设 类 别 之 间 存 在 层次 结构 , 将 样本 聚 到 层次 化 的 类 中 。 层 次 聚 类 又 
有 聚合 或 自 下 而 上 、 分 裂 或 自 上 而 下 两 种 方法 。 

聚合 聚 类 开始 将 每 个 样本 各 自分 到 一 个 类 ; 之 后 将 相距 最 近 的 两 类 合并 , 建立 一 
个 新 的 类 , 重复 此 操作 直到 满足 停止 条 件 ; 得 到 层次 化 的 类 别 。 分 裂 聚 类 开始 将 所 有 
样本 分 到 一 个 类 ; 之 后 将 已 有 类 中 相距 最 远 的 样本 分 到 两 个 新 的 类 , 重复 此 操作 直到 
满足 停止 条 件 ; 得 到 层次 化 的 类 别 。 

聚合 聚 类 需要 预先 确定 下 面 三 个 要 素 : 

(1) 距离 或 相似 度 ; 

(2) 合并 规则 ; 

(3) 停止 条 件 。 

根据 这 些 概念 的 不 同 组 合 ， 就 可 以 得 到 不 同 的 聚 类 方法 。 

6. k 均值 聚 类 是 常用 的 聚 类 算法 ， 有 以 下 特点 。 基 于 划分 的 聚 类 方法 ; RI k 
事先 指定 ;以 欧 氏 距离 平方 表示 样本 之 间 的 距离 或 相似 度 ， 以 中 心 或 样本 的 均值 表示 
类 别 ; 以 样本 和 其 所 属 类 的 中 心 之 间 的 距离 的 总 和 为 优化 的 目标 函数 ; 得 到 的 类 别 是 
平坦 的 、 非 层次 化 的 ; 算法 是 迭代 算法 , 不 能 保证 得 到 全 局 最 优 。 

k 均值 聚 类 算法 ， 首 先 选择 k 个 类 的 中 心 , 将 样本 分 到 与 中 心 最 近 的 类 中 , 得 到 一 
个 聚 类 结果 ; 然后 计算 每 个 类 的 样本 的 均值 , 作为 类 的 新 的 中 心 ; 重复 以 上 步骤 , 直到 
收敛 为 止 。 


聚 类 的 方法 很 多 , 各 种 方法 的 详细 介绍 可 见 文献 [1, 3 。 层 次 化 聚 类 的 方法 可 见 
文献 [2]; k 均值 聚 类 可 见 文献 [3, 各。k 均值 聚 类 的 扩展 有 X-means 回 。 其 他 常用 的 聚 
类 方法 还 有 基于 混合 分 布 的 方法 ,如 高 斯 混合 模型 与 EM 算法 ; 基于 密度 的 方法 ,如 
DBScanlgl, 基于 谱 聚 类 的 方法 , 如 Normalized Cuts 中 ]。 以 上 方法 是 对 样本 的 聚 类 , 也 
有 对 样本 与 属性 同时 聚 类 的 方法 , 如 Co-Clustering!). 
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习 A 


14.1 试 写 出 分 裂 聚 类 算法 ， 自 上 而 下 地 对 数据 进行 聚 类 ， 并 给 出 其 算法 复 


杂 度 。 


14.2 ”证明 类 或 簇 的 四 个 定义 中 , 第 一 个 定义 可 推出 其 他 三 个 定义 
14.3 证 明 式 (14.21) RZ, Bl k 均值 的 可 能 解 的 个 数 是 指数 级 的 。 
14.4 比较 大 均值 聚 类 与 高 斯 混合 模型 加 EM 算法 的 异同 。 
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#158 ”奇异 值 分 解 


奇异 值 分 解 (singular value decomposition, SVD) 是 一 种 矩阵 因子 分 解 方法 , 是 
线性 代数 的 概念 , 但 在 统计 学 习 中 被 广泛 使 用 , 成 为 其 重要 工具 。 本 书 介绍 的 主 成 分 
分 析 、 潜在 语义 分 析 都 用 到 奇异 值 分 解 。 


任意 一 个 m x n 和 矩阵, 都 可 以 表示 为 三 个 矩阵 的 乘积 (因子 分 解 ) 形式 , 分 别 是 
m 阶 正 交 和 矩阵、 由 降序 排列 的 非 负 的 对 角 线 元 素 组 成 的 m x n 矩形 对 角 和 矩阵 和 mn 阶 
正 交 和 矩阵 , 称 为 该 矩 阵 的 奇异 值 分 解 。 矩阵 的 奇异 值 分 解 一 定 存 在 , 但 不 唯一 。 奇异 
值 分 解 可 以 看 作 是 矩阵 数据 压缩 的 一 种 方法 ， 即 用 因子 分 解 的 方式 近似 地 表示 原始 矩 
阵 , 这 种 近似 是 在 平方 损失 意义 下 的 最 优 近似 。 

15.1 节 讲 述 矩 阵 奇异 值 分 解 的 定义 与 基本 定理 ,叙述 奇异 值 分 解 的 紧凑 和 截断 形 
式 、 儿 何 解 释 、 主 要 性 质 ; 15.2 节 讲述 奇异 值 分 解 的 算法 ; 15.3 节 论 述 奇异 值 分 解 是 
和 矩阵 的 一 种 最 优 近似 方法 。 


15.1 奇异 值 分 解 的 定义 与 性 质 


15.1.1 定义 与 定理 
定义 15.1 (奇异 值 分 解 ) MEMRAM, HER m xn REE 
A, AE Rmxn， 表 示 为 以 下 三 个 实 和 矩阵 乘积 形式 的 运算 四 ， 即 进行 矩阵 的 因子 分 解 : 
4=UZDVT (15.1) 


其 中 了 是 m MERZ (orthogonal matrix), V Æ n PERH, D 是 由 降序 排 
列 的 非 负 的 对 角 线 元 素 组 成 的 m x n $29 xt A FFF (rectangular diagonal matrix ) ， 
满足 


© 奇异 值 分 解 可 以 更 一 般 地 定义 在 复数 矩阵 上 , 这 里 并 不 涉及 。 
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UUT =I 

VVT 

X = diag(o1,02,--- , op) 

01 2022°:-2op20 

p=min(m,n) 
USV" 称 为 矩阵 A 的 奇异 值 分 解 ( singular value decomposition, SVD ), o; 称 为 矩阵 
A 的 奇异 值 (singular value), U 的 列 向 量 称 为 左 奇 异 向 量 (left singular vector), V 
的 列 向 量 称 为 右 奇 异 向 量 (right singular vector ) 。 


注意 奇异 值 分 解 不 要 求 矩 阵 4 是 方 阵 , 事实 上 矩阵 的 奇异 值 分 解 可 以 看 作 是 方 
阵 的 对 角 化 的 推广 。 
下 面 看 一 个 奇异 值 分 解 的 例子 。 


例 15.1 给 定 一 个 5x4 和 矩阵 4 


1 


0 
A=] 0 
0 
2 


一 © O © 65G 
oo © © © 
O O O A OO 


它 的 奇异 值 分 解 由 三 个 矩阵 的 乘积 USVT 给 出 , EEU, S, VT 分 别 为 


0 0 v02 0 Vv08 40 0 0 
10 0 0 0 03 0 0 
U=!01 0 0 0 », 2=10 0 v5 0 
00 0 1 0 00 0 0 
0 0 V08 0 -v02 0 0 0 0 
0001 
yr- |0100 
1000 
0010 


JERE D 是 对 角 矩 阵 ， 对 角 线 外 的 元 素 都 是 0, 对 角 线 上 的 元 素 非 负 ， 按 降序 排列 。 HE 
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阵 U 和 V Fe TEAC, CNSA A Ae EE, B 


UUT =I15, VVT =I, 
56 BE AE MEARS EMEA. FEE Bi REE U 为 


00 V027 V04 -v04 


10 0 0 0 
U=/!0 1 0 0 0 
00 0 v05 V05 
0 0 V08 -v01 Vol 
mW OSV 不 变 , 那么 2YVT 也 是 4 的 一 个 奇异 值 分 解 。 a 


任意 给 定 一 个 实 和 矩阵 ， 其 奇异 值 分 解 是 否 一 定 存在 呢 ? 答案 是 肯定 的 , 下 面 的 奇 
异 值 分 解 的 基本 定理 给 予 保证 。 

定理 15.1 (奇异 值 分 解 基本 定理 ) ” 若 4 为 一 m xn FHF, ACR™", MA 
的 奇异 值 分 解 存在 


4=UZVT (15.2) 

其 中 U £m 阶 正 交 矩阵 ，V 是 n MERE, DÆ mxn BH AM, Het Aw 
元 素 非 负 ， 且 按 降序 排列 。 

证 明 证 明 是 构造 性 的 ,对 给 定 的 矩阵 A, 构造 出 其 奇异 值 分 解 的 各 个 矩阵 。 为 
THE, 不 妨 假设 m >n, WR m < n 证 明 仍 然 成 立 。 证 明 由 三 步 完 成 .2 

a) 确定 了 AD 

首先 构造 n 阶 正 交 实 矩阵 V 和 m x n 和 矩形 对 角 实 矩阵 上。 

JERE A 是 m xn KHER, 则 矩阵 ATA FE n 阶 实 对 称 矩 阵 。 因 而 ATA 的 特征 值 都 
是 实数 , 并 且 存 在 一 个 浆 阶 正 交 实 矩阵 实现 ATA 的 对 角 化 , 使 得 VT (ATA) V = A 
成 立 , 其 中 4 是 nn 阶 对 角 矩 阵 ， 其 对 角 线 元 素 由 ATA 的 特征 值 组 成 。 

WH, ATA 的 特征 值 都 是 非 负 的 。 事实 上 , +A ATA 的 一 个 特征 值 , xz 是 对 
应 的 特征 向 量 , 则 


lAz||? = xT AT Aa = ArT x = Allz||? 


于 是 


|Az|? 
= > i 
Tal? 0 (15.3) 


O 线性 代数 的 基本 知识 可 参见 本 章 的 参考 文献 。 
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可 以 假设 正 交 矩阵 V 的 列 的 排列 使 得 对 应 的 特征 值 形成 降序 排列 


MAMO 
计算 特征 值 的 平方 根 (实际 就 是 矩阵 4 的 奇异 值 ) 


WIERE A 的 秩 是 7, rank(A) = r, MJERE ATA 的 秩 也 是 r。 由 于 ATA 是 对 称 和 矩阵 ， 
它 的 秩 等 于 正 的 特征 值 的 个 数 , 所 以 


Ar 2A >A, > 0, Aner = Appr = os = Ay = 0 (15.4) 
对 应 地 有 
0l 2022°:'20,>0, Or+1 =Or42 = °° = On =0 (15.5) 
a 
Y= [vi WW vr), v2 = [w+1 Zr 上 +2 °°" Yn] 


HEP n, vp A ATA 的 正 特征 值 对 应 的 特征 向 量 , v41,… ,vn 为 0 特征 值 对 应 的 
特征 向 量 , 则 


Val va (15.6) 
这 就 是 矩阵 4 的 奇异 值 分 解 中 的 n BME SCHEME Vo 
令 
ai 
02 
= 
Or 


SW EAS r MIAE, ORY RTR A a EE TE o ,cr， 于 是 
m x n FEFER ARE DRA 


a 
D= (15.7) 


这 就 是 矩阵 4 的 奇异 值 分 解 中 的 mm x n FEM AEE D. 
下 面 推出 后 面 要 用 到 的 一 个 公式 。 在 式 (15.6) 中 , V2 的 列 向 量 是 ATA 对 应 于 特 


15.1 奇异 值 分 解 的 定义 与 性 质 275 


征 值 为 0 的 特征 向 量 。 因 此 
4T4uj =0, j=r+1, -n (15.8) 


于 是 , Vo 的 列 向 量 构成 了 ATA 的 零 空 间 N(474), mi N(ATA) = N(A)o HLA Vz 的 
列 向 量 构 成 4 的 零 空 间 的 一 组 标准 正 交 基 。 因此， 


AV = 0 (15.9) 
由 于 V 是 正 交 矩阵， 由 式 (15.6) 可 得 
I=VV" = VVE + VVA (15.10) 
A = AI = AV VE + AVV = AV, VE (15.11) 
(2) MEU 
接着 构造 m 阶 正 交 实 矩 阵 U. 
令 
1 
uj=—Av;, j=1,2, ,7 (15.12) 
Oj 
Ui 三 {ur U2 a te Ur] (15.13) 
则 有 
AV, = U,2, (15.14) 


Uy 的 列 向 量 构成 了 一 组 标准 正 交 集 ， 因 为 


i=1,2, 7; j=1,2, ,7 (15.15) 


由 式 (15.12) 和 式 (15.15) TJAN, u1, wu2,… ,ur 构成 4 的 列 空间 的 一 组 标准 正 交 基 ， 
列 空间 的 维 数 为 -。 如果 将 4 看 成 是 从 Rm 到 R™ 的 线性 变换 , 则 4 的 列 空间 和 4 
的 值 域 R(4) 是 相同 的 。 因此 ui, u2,--- ,ur 也 是 R(4) 的 一 组 标准 正 交 基 。 
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车 R(A)+ 表示 R(A) 的 正 交 补 , 则 有 RCA) KWER r, R(A)+ 的 维 数 为 m 一 7， 
两 者 的 维 数 之 和 等 于 m. 而 且 有 R(4)+ = N(AT) RX. © 
令 {Ury Uri2，… Um} A N(AT) 的 一 组 标准 正 交 基 , 并 令 


Us=[urt Ur+2 o Um 


U=[U U] (15.16) 


W u1, U2, ,um HRT R” 的 一 组 标准 正 交 基 。 因此, U 是 m 阶 正 交 矩阵， 这 就 是 
矩阵 A 的 奇异 值 分 解 中 的 m 阶 正 交 矩阵 。 

(3) 证 明 UZVT= A 
1 式 (15.6)、 式 (15.7)、 式 (15.11)、 式 (15.14) 和 式 (15.16) 得 


USVT=[U, U | aa | ye 
0 || vE 
=u 
= AV, VF 
=A (15.17) 
至 此 证 明了 和 矩阵 4 存在 奇异 值 分 解 。 L 


15.1.2” 紧 奇异 值 分 解 与 截断 奇异 值 分 解 
定理 15.1 给 出 的 奇异 值 分 解 
A=UBVT 


又 称 为 矩阵 的 完全 奇异 值 分 解 Cull singular value decomposition) 。 实 际 常用 的 是 奇 
异 值 分 解 的 紧凑 形式 和 截断 形式 。 紧 奇异 值 分 解 是 与 原始 矩阵 等 秩 的 奇异 值 分 解 ， 截 
断 奇 异 值 分 解 是 比 原始 矩阵 低 秩 的 奇异 值 分 解 。 


1. 紧 奇 异 值 分 解 
EX 15.2 HA mxn KEE A, HAA rank(A) =r, r < min(m,n), MAR 
U,5,V 为 A 的 紧 奇 异 值 分 解 (compact singular value decomposition ) ， 即 


O 参照 附录 D. 
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A=U,5,V,2 (15.18) 


其 中 UU 是 m xr 4H, V, 是 nxr HEE, D, 是 7 WH AE, HEU, 由 完全 奇异 
值 分 解 中 U 的 前 列 、 HEV, 由 VV A FT). ED, 由 马 的 前 7 个 对 角 线 元 素 
得 到 。 紧 奇异 值 分 解 的 对 角 短 阵 DD, 的 秩 与 原始 矩阵 A 的 秩 相等 。 


例 15.2 由 例 15.1 给 出 的 矩阵 4 的 秩 7 = 3， 


1000 
000 4 
A=|0 300 
0000 
2000 
A 的 紧 奇 异 值 分 解 是 
A =U, DV 
其 中 
0 0 v02 
10 0 4 0 0 0001 
Ur=|0 1 0 |, S=]03 0], Y=]01 00 a 
00 0 0 0 v5 100 0 
0 0 V08 


2. 截断 奇异 值 分 解 
在 矩阵 的 奇异 值 分 解 中 ,只 取 最 大 的 大 个 奇异 值 (k < r,r 为 矩阵 的 秩 ) 对 应 的 
部 分 , 就 得 到 和 矩阵 的 截断 奇异 值 分 解 。 实 际 应 用 中 提 到 甜 阵 的 奇异 值 分 解 时 , 通常 指 
截断 奇异 值 分 解 。 

定义 15.3 设 A 为 mxn KH, 其 秩 rank(4) = 二 7， 且 0 < 及 <7， 则 称 
太史 VE 为 矩阵 A 的 截断 奇异 值 分 解 (truncated singular value decomposition ) 


A ~ Uk Ek VE (15.19) 


其 中 Uk Æ mx k 4%, Vk A nx k FR, Ek 是 Bret A FEE; FETE Up 由 完全 奇异 
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值 分 解 中 U aT ko). EV, H V AAT k 3l, EE D, 由 允 的 前 有 个 对 角 线 元 素 
492). xt A EIE Dp 的 秩 比 原始 矩阵 4 的 秩 低 。 
例 15.3 由 例 15.1 所 给 出 的 矩阵 A 


1 0 0 0 
0 0 0 4 
A=|0300 
0 0 0 0 
2 0 0 0 


的 秩 为 3, 若 取 k= 2 则 其 截断 奇异 值 分 解 是 
A® Ag = Us 5V 


其 中 


U2 


Il 
oS = T =. © 
= © 
ù 
ll 
-—— 
心 
w 
| 
$ 
Il 


Ag = U25 V = 


oOo oO O O O 
oo 5O o oo 
© © O O O 
oO Oo O A O 


这 里 的 Uz Vo 是 例 15.1 HU AV 的 前 2 列 , Dy 是 马 的 前 2 行 前 2 列 。 A GA LL 
较 , A 的 元 素 1 和 2 在 Ao 中 均 变 成 0。 图 
在 实际 应 用 中 ,常常 需要 对 和 矩阵 的 数据 进行 压缩 , 将 其 近似 表示 , 奇异 值 分 解 提 
供 了 一 种 方法 。 后 面 将 要 叙述 , 奇异 值 分 解 是 在 平方 损失 ( 弗 罗 贝 尼 乌 斯 范 数 ) 意义 
下 对 和 矩阵 的 最 优 近 似 。 紧 奇异 值 分 解 对 应 着 无 损 压 缩 , 截断 奇异 值 分 解 对 应 着 有 损 
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15.1.3 ”几何 解释 


从 线性 变换 的 角度 理解 奇异 值 分 解 , m x n 和 矩阵 A 表示 从 nn 维 空间 R” 到 m HE 
空间 R™ 的 一 个 线性 变换 ， 
了 :7 一 47r 


Zz ER", Are R”, r Ñ Ar 分 别 是 各 自 空间 的 向 量 。 线性 变换 可 以 分 解 为 三 个 简单 
的 变换 : 一 个 坐标 系 的 旋转 或 反射 变换 、 一 个 坐标 轴 的 缩放 变换 、 另 一 个 坐标 系 的 旋 
转 或 反射 变换 。 奇 异 值 定理 保证 这 种 分 解 一 定 存在 。 这 就 是 奇异 值 分 解 的 几何 解释 。 

对 和 矩阵 A 进行 奇异 值 分 解 , 得 到 4 =USVT, V ALU 都 是 正 交 矩阵, 所 以 V 的 
列 向 量 v1,v2,… ,vn 构成 Rn 空间 的 一 组 标准 正 交 基 , 表示 R” 中 的 正 交 坐标 系 的 
旋转 或 反射 变换 ; U 的 列 向 量 uu ,um 构成 Rm 空间 的 一 组 标准 正 交 基 , 表示 
R” 中 的 正 交 坐标 系 的 旋转 或 反射 变换 ; D 的 对 角 元 素 01,02,… ,on 是 一 组 非 负 实 
数 , 表示 R” 中 的 原始 正 交 坐标 系 坐 标 轴 的 01,02, ,on 倍 的 缩放 变换 。 

任意 一 个 向 量 z CR", 经 过 基于 A= USVT 的 线性 变换 , 等 价 于 经 过 坐标 系 
的 旋转 或 反射 变换 VT, 坐标 轴 的 缩放 变换 号 ， 以 及 坐标 系 的 旋转 或 反射 变换 U, 得 
到 向 量 Axr e R”. 图 15.1 给 出 直观 的 几何 解释 ( 见 文 前 彩 图 )。 原 始 空间 的 标准 正 交 
基 (红色 与 黄色 ), 经 过 坐标 系 的 旋转 变换 VYT、 坐 标 轴 的 缩放 变换 (黑色 01,02). 
坐标 系 的 旋转 变换 U, 得 到 和 经 过 线性 变换 4 等 价 的 结果 。 


o 


A=UZV™ ai 
k = 
r| Ẹ 
5 
X = oO; 


图 15.1 “奇异 值 分 解 的 几何 解释 ( 见 彩 图 ) 


下 面 通过 一 个 例子 直观 地 说 明 奇异 值 分 解 的 几何 意义 。 
例 15.4 给 定 一 个 2 阶 和 矩阵 
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其 奇异 值 分 解 为 


0.5760 0.8174 0 0.2588 —0.3606 0.9327 


0.8174 Hi 5 hi 0 | y? | 0.9327 ond 


观察 基于 矩阵 4 的 奇异 值 分 解 将 R? 的 标准 正 交 基 


进行 线性 转换 的 情况 。 
首先 , VT 表示 一 个 旋转 变换 , 将 标准 正 交 基 el, es 旋转 , 得 到 向 量 VTe1, VT eo: 


T 0.9327 m 0.3606 
Ve = 3 V- eg= 
—0.3606 0.9327 


其 次 , D 表示 一 个 缩放 变换 ,将 向 量 VTel ，VTes2 在 坐标 轴 方 向 缩放 o 倍 和 cs 
倍 ， 得 到 向 量 DVTe, DVTe2: 


a 3.6042 T 1.3935 
DVTel = ， ZV es2 一 
一 0.0933 0.2414 


Kia, U 表示 一 个 旋转 变换 ， 再 将 向 量 2VTel，2VTe 旋转 ， 得 到 向 量 
UDVTel, UXVTez, 也 就 是 向 量 Ae, 和 Aez: 
1 
1 


综 上 , 矩阵 的 奇异 值 分 解 也 可 以 看 作 是 将 其 对 应 的 线性 变换 分 解 为 旋转 变换 、 缩 
放 变 换 及 旋转 变换 的 组 合 。 根据 定理 15.1, 这 个 变换 的 组 合 一 定 存 在 。 C 


3 
Ae, = UXVTe; = | , Ae =USV"ez 
2 


15.14 ”主要 性 质 
(1) BEBE 4 的 奇异 值 分 解 为 A = USVT, 则 以 下 关系 成 立 : 
ATA = (VEZVT)T (USV?) = V(ZTZ)VT (15.20) 
AAT = (UZV™)USV")* =U(ZE7)UT (15.21) 
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也 就 是 说 , 矩阵 ATA 和 AAT 的 特征 分 解 存在 ， 且 可 以 由 矩阵 4 的 奇异 值 分 解 
的 矩阵 表示 。V 的 列 向 量 是 474 的 特征 向 量 , U 的 列 向 量 是 AAT 的 特征 向 量 , 2 的 
奇异 值 是 ATA 和 AAT 的 特征 值 的 平方 根 。 

(2) 在 矩阵 A 的 奇异 值 分 解 中 , 奇异 值 、 左 奇异 向 量 和 右 奇异 向 量 之 间 存 在 对 应 
关系 。 


1 A=USVT 易 知 


AV =US 
比较 这 一 等 式 两 端的 第 7 列 , 得 到 
Av; =oju;, j=1,2,---,n (15.22) 


这 是 矩阵 4 的 右 奇异 向 量 和 奇异 值 、 左 奇异 向 量 的 关系 。 


类 似 地 , 由 
ATU =Vs™ 
得 到 
AT uj =050;, j=1,2,---,n (15.23) 
ATu; =0, j=nti,n+2,---,m (15.24) 


这 是 矩阵 4 的 左 奇异 向 量 和 奇异 值 、 右 奇异 向 量 的 关系 。 

(3) 和 矩阵 4 的 奇异 值 分 解 中 , 奇异 值 01,o2,… ,on 是 唯一 的 , 而 和 矩阵 UV 和 VV 不 
是 唯一 的 。 

(4) FEM A AD 的 秩 相 等 , 等 于 正 奇 异 值 ci 的 个 数 > 包含 重复 的 奇异 值 ) 。 

(5) 矩阵 A 的 7 个 右 奇 异 向 量 ,va，…… ,w 构成 4T 的 值 域 R(A4T) 的 一 组 标准 
正 交 基 。 因 为 矩阵 AT 是 从 Rzm 映射 到 R” 的 线性 变换 , 则 AT 的 值 域 R(AT) 和 AT 
的 列 空 间 是 相同 的 , v1,v2,… ,vr 是 AT 的 一 组 标准 正 交 基 , 因而 也 是 R(AT) 的 一 组 
标准 正 交 基 。 © 
HERE 4 的 n 一 7 个 右 奇 异 向 量 vy1,vr42,… ,vn 构成 4 的 零 空 间 N(4) 的 一 组 
标准 正 交 基 。 
矩阵 4 的 7 个 左 奇异 向 量 u, uz ,ur 构成 值 域 R(A) 的 一 组 标准 正 交 基 。 
矩阵 A 的 m 一 7 个 左 奇异 向 量 up yi, Urtz ,Um 构成 47 的 零 空 间 N(AT) 的 
一 组 标准 正 交 基 。 


O 参照 附录 D. 
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15.2 奇异 值 分 解 的 计算 


奇异 值 分 解 基 本 定理 证 明 的 过 程 蕴含 了 奇异 值 分 解 的 计算 方法 。 拢 阵 4 的 奇异 
值 分 解 可 以 通过 求 对 称 和 矩阵 ATA 的 特征 值 和 特征 向 量 得 到 。4T4 的 特征 向 量 构成 正 
ACFE V 的 列 ; ATA 的 特征 值 A; 的 平方 根 为 奇异 值 ri BI 
j= 7=1,2,.,% 


对 其 由 大 到 小 排列 作为 对 角 线 元 素 , PA ORT EME D 求 正 奇异 值 对 应 的 左 奇异 向 
HL, 再 求 扩充 的 AT 的 标准 正 交 基 , 构成 正 交 矩阵 U 的 列 。 从 而 得 到 A 的 奇异 值 分 解 
A=USV". 


给 定 m x n 矩阵 A, 可 以 按照 上 面 的 叙述 写 出 矩阵 奇异 值 分 解 的 计算 过 程 。 
(1) 首先 求 474 的 特征 值 和 特征 向 量 。 
计算 对 称 矩 阵 砚 = ATA. 

求解 特征 方程 


(W — Ala =0 
得 到 特征 值 A 并 将 特征 值 由 大 到 小 排列 


将 特征 值 A; (i = 1,2,… ,mn) 代入 特征 方程 求 得 对 应 的 特征 向 量 。 
(2) R n BEACH V 
将 特征 向 量 单位 化 ， 得 到 单位 特征 向 量 wm,va,，…… Un» 构成 m 阶 正 交 矩阵 下: 


v=[u Ug o- vn | 
(3) Km x n HAEE S 
计算 4 的 奇异 值 

oi= VM i=1,2 ,Nn 


构造 mm x n 矩形 对 角 矩 阵 吨 ， 主 对 角 线 元 素 是 奇异 值 ， 其余 元 素 是 零 ， 


X = diag(ol,a2…… ,on) 
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(4) R m 阶 正 交 矩阵 U 
对 4 的 前 7 个 正 奇异 值 , 令 


1 
Uj = A j=l 本 有 人 
7 


得 到 


Tr un a 


RAT 的 零 空 间 的 一 组 标准 正 交 基 fur+iyur+2，… Um p & 


Ua=[ wrt Urt2 > Um | 
并 令 
U=[N UW] 
(5) 得 到 奇异 值 分 解 
A=UBVT 


下 面 通过 一 个 简单 的 例题 , 说 明 奇 异 值 分 解 的 算法 。 
515.5 WREKE 


1 1 
A=]2 2 
0 0 
的 奇异 值 分 解 。 
解 (1) 求 矩 阵 ATA 的 特征 值 和 特征 向 量 
求 对 称 和 矩阵 ATA 


特征 值 和 和 特征 向 量 z 满足 特征 方程 
(AT7A—ADz=0 


得 到 齐 次 线性 方程 组 
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(5 — A)ait+ 522 = 0 
5z1 十 (5 —A)ro =0 


该 方程 组 有 非 零 解 的 充 要 条 件 是 


即 
和 2 一 10 和 =0 
解 此 方程 ,得 矩阵 ATA 的 特征 值 和 1 = 10 和 Xs = 0。 
将 特征 值 Ay = 10 代入 线性 方程 组 , 得 到 对 应 的 单位 特征 向 量 


E 
Vi 
v= 1 
+ 
同样 得 到 特征 值 Az = 0 对 应 的 单位 特征 向 量 
a 
: V2 
”| -二 
va 
(2) REZE V 
构造 正 交 和 矩阵 了 ， 
JZ v2 
PENi i 
V2 v2 
(3) 求 对 角 和 矩阵 D 
奇异 值 为 o1 = Vn = VIO 和 oz = 0。 构造 对 角 拢 阵 
vio 0 
z= 0 0 
0 0 


主意 在 U 中 要 加 上 零 行 向 量 , 使 得 D 能 够 与 U,V 进行 矩阵 乘法 运算 。 


aye 
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(4) RIERA ME U 
基于 A 的 正 奇异 值 计算 得 到 列 向 量 wa 


1 

iil V5 

ee v2 |_| 9 
ui = —Avu =] 2 2 =) 6 
a v10 A We 

0 0 V2 ó 


列 向 量 ug, ug 是 AT 的 零 空间 N(AT) 的 一 组 标准 正 交 基 。 为 此 , 求解 以 下 线性 


方程 组 
1 2 0 ie 0 
和 | | e p | | 
1 2 0 0 


T3 


Bp 


zı + 2x2 + 023 = 0 
Z1 = —272 + 023 


分 别 取 (za, zs) 为 (1,0) 和 (0,1), 得 到 N(AT) 的 基 


(-2,10)7， (0,0,1)7 


N(47) 的 一 组 标准 正 交 基 是 


z i AF 
uz = (°) , ug = (0,0,1)7 

构造 正 交 矩阵 U 
ae kG 

J5 V6 
U=| 2 1 0 

V5 V5 
0 0 1 


1 2 
— -= 0 
dele 
2 
4=UZVT=| 2 1 4 0 0 j j E 
V5 V5 a ee 
0 01 eog v2 v2 
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上 面 的 算法 和 例题 只 是 为 了 说 明 计算 的 过 程 ， 并 不 是 实际 应 用 中 的 算法 。 可 以 看 
出 , 奇异 值 分 解 算法 关键 在 于 ATA 的 特征 值 的 计算 。 实际 应 用 的 奇异 值 分 解 算 法 是 
通过 求 ATA 的 特征 值 进行 , 但 不 直接 计算 ATA. 按照 这 个 思路 产生 了 许多 矩阵 奇异 
值 分 解 的 有 效 算法 , 这 里 不 予 介 绍 , 读者 可 以 参考 文献 [3, 4]. 


15.3 ”奇异 值 分 解 与 矩阵 近似 


15.3.1 HONEST 


奇异 值 分 解 也 是 一 种 矩阵 近似 的 方法 , 这 个 近似 是 在 弗 罗 贝 尼 乌 斯 范 数 (Frobenius 
norm) 意义 下 的 近似 。 和 拢 阵 的 弗 罗 贝 尼 乌 斯 范 数 是 向 量 的 Lo 范 数 的 直接 推广 ,对 应 
着 机 器 学 习 中 的 平方 损失 函数 。 

定义 15.4 ( 弗 罗 贝 尼 乌 斯 范 数 ) RBM AER, A= [aijjmxn， 定义 矩阵 A 
的 弗 罗 贝 尼 乌 斯 范 数 为 


m n 2 
|4llz = (EF 107) (15.25) 


i=1 j=1 


引 理 15.1 RAM A cR”, A 的 奇异 值 分 解 为 TDVT， 其 中 允 = diag(o1， 
02…… ,an)， 则 
A 
|Alle = (0? +03 +---+02)2 (15.26) 


证 明 一 般 地 , 若 Q 是 m MEXE, 则 有 


le4lz = lAlle (15.27) 


QAI? = ||(Qa1, Qaz,.… ,Qan)ll? 
= >》 |Qal? = > loill? = IA? 
i=1 i=1 


同样 , 47 P Æ n 阶 正 交 和 矩阵， 则 有 


APT le = Ile (15.28) 
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故 


即 


Alle = |UZV"lF = ||2llF (15.29) 


|Alle = (of +03 +- +03) 


nile 
_ 
m 
SK 
名 
S 
z= 


15.3.2 ”和 矩阵 的 最 优 近似 


奇异 值 分 解 是 在 平方 损失 ( 弗 罗 贝 尼 乌 斯 范 数 ) 意义 下 对 矩阵 的 最 优 近 似 ， 即 数 


据 压 缩 。 


定理 15.2 HHE A cR”, 矩阵 的 秩 rank(4) =r, 并 设 M 为 Rm*x" 中 所 
有 秩 不 超过 上 的 矩阵 集合 ,0 < 有 < r， 则 存在 一 个 秩 为 的 矩阵 X CM, 1844 


lA- Xle = min || A- Sllr (15.31) 


ARFEIE X 为 矩阵 A 在 弗 罗 贝 尼 乌 斯 范 数 意义 下 的 最 优 近似 。 


本 和 


不 证 明 这 一 定 到 


E, 将 应 用 这 个 结果 , TEE 4 的 奇异 值 分 解 求 出 近似 和 矩阵 六 。 


定理 15.3 HH A e R™*", 矩阵 的 秩 rank(4) = r, A FRED A = 
UNV", 并 设 M 为 Rmxm 中 所 有 秩 不 超过 的 矩阵 的 集合 ,0 < hk <r, BRAK 


FETE X 


则 


E A4 满足 


I4-Xle= min | A- Slr (15.32) 


A- Xle = (ok + Ohya + °° +07) 


Nie 


(15.33) 


特别 地 , 若 4' = US'VT, 其 中 


y= 


O71 


OK a Ze 0 
0 0 0 
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则 


lA- A'lle = (o1 +08,2 te +02)? = min || A- Se (15.34) 
证 明 SX eM 为 满足 式 (15.32) 的 一 个 矩阵 。 由 于 
|4- Xlir < lA- Ale = (0f, + 0242 + +02)? (15.35) 
下 面 证 明 


一 


|A- Xlir > (Char + Chae 十.… 十 03) 


于 是 式 (15.33) 成 立 。 
BX 的 奇异 值 分 解 为 8Q2PT, 其 中 


Ww) 


0 


HM B= QTAP, 则 4 = QBPT。 由 此 得 到 


|A — Xlir = ||Q(B — 2)P* lr =|B- Ql|r (15.36) 
I 2 分 块 方法 对 B 分 块 
B= Buy By 
By B22 


其 中 Bıı Æ kx k THER, Bi2 是 kx (n-k) THER, B21 是 (m—k) x k THER, B22 
是 (m — k) x (n — k) 子 和 矩阵 。 可 得 


|A- XI = ||B - fle 


= ||Bu — All? + ||Bill + || Baill + || Boll (15.37) 
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E Big = 0, Ba = 0。 用 反 证 法 。 Æ Bis #0, $ 


Lill 
va] ™ va 
0 0 
WYem, A 
IA- Y|? = ||Baill + || Baal < A — XI (15.38) 
这 与 X 的 定义 式 (15.35) 矛盾 , 证 明了 B12 = 0。 同 样 可 证 Boy = 0。 于 是 
IA- XI? = ||Bur — All? + || Beall} (15.39) 
再 证 Bill = Qko HES 
Z=Q | =a | PT 
0 0 
WZeEM, A 
(15.40) 


lA- Zik = || Bool < IB — All? + || Beall = ||A — Xll? 


由 式 (15.35) 知 , | Bi — kll = 0; 即 Bir = 2ko 
最 后 看 Boge F (m—k) x (n—k) THEBE Boo 有 奇异 值 分 解 UAV," W 


lA- Xz = ||Boalle = |lAlle (15.41) 


正明 A 的 对 角 线 元 素 为 4 的 奇异 值 。 为 此 , & 


0 U 0 hn 


hh | 
位 矩阵 ，U2，V2 的 分 块 与 B 的 分 块 一 致 。 注意 到 B 及 Boo 的 奇异 


其 中 天 是 BN 
值 分 解 ,， 即 得 


0 
(15.42) 


0 
UZQTAPv =| 7 
0 A 
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于 是 证 明了 


A= (QU) | as | (PV2)" (15.43) 
0 A 
由 此 可 知 A 的 对 角 线 元 素 为 4 的 奇异 值 。 故 有 
IA- Xlir = Alle > (0241 +02,2 +- +02)? (15.44) 
1 
lA -Xlir = (0241 +0242 + +02)? =||A-A'lle E 


定理 15.3 表明 , 在 秩 不 超过 上 的 m x n 矩阵 的 集合 中 , FEER A 的 弗 罗 贝 尼 
乌 斯 范 数 意义 下 的 最 优 近似 矩阵 X. A = US'VT 是 达到 最 优 值 的 一 个 矩阵 。 


前 面 定义 了 和 矩阵 的 紧 奇 异 值 分 解 与 截断 奇异 值 分 解 。 事实 上 紧 奇 异 值 分 解 是 在 弗 


罗 贝 尼 鸟 斯 范 数 意义 下 的 无 损 压 缩 , 截断 奇异 值 分 解 是 有 损 压 缩 。 截断 奇异 值 分 解 得 
到 的 矩阵 的 秩 为 , 通常 远 小 于 原始 矩阵 的 秩 ”, 所 以 是 由 低 秩 矩阵 实现 了 对 原始 矩阵 


15.3.3 ”矩阵 的 外 积 展开 式 


下 面 介绍 利用 


外 积 展开 式 对 矩阵 A 的 近似 。 矩阵 A 的 奇异 值 分 解 2VT 也 可 以 


由 外 积 形式 表示 。 事实 上 , 若 将 A 的 奇异 值 分 解 看 成 矩阵 UD MVT 的 乘积 , 将 UD 
按 列 向 量 分 块 , 将 VT 按 行 向 量 分 块 , 即 得 


则 


UX = [ OU O2U2 + OnUn | 
up 
T 
wa! 2 
Un 
A= ouivT 十 onugue ++ onunvT (15.45) 


式 (15.45) 称 为 矩阵 A 的 外 积 展开 式 , 其 中 urug 为 m x 和 矩阵， 是 列 向 量 w 和 行 
向 量 up 的 外 积 , 其 第 i 行 第 j 列 元 素 为 wk 的 第 i PCRS of 的 第 了 个 元 素 的 乘 
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积 。 即 
Uli UliVij  UliU2j Ui ng 
T U2i U2iV1)  U2iU2j UU ng 
ey = || a Vy Vag == Wig |= 
Umi UmiY1g UmiV2j `° Umilng 


A 的 外 积 展开 式 也 可 以 写成 下 面 的 形式 
=) Ab p? onuRye (15.46) 


其 中 Ar = opugue 是 m x n 矩阵 。 式 (15.46) 将 矩阵 4 分 解 为 矩阵 的 有 序 加 权 和 。 


由 矩阵 A 的 外 积 展 开 式 知 , 若 A 的 秩 为 n, W 


A= ouve + ozuzva ++ nunu? (15.47) 


WIERE 

ye = ouw? + ogugve ++ On—1Un—102_4 
则 An- 的 秩 为 n 一 1, 并且 Ana 是 秩 为 n 一 1 和 矩阵 在 弗 罗 贝 尼 乌 斯 范 数 意 义 下 4 的 
最 优 近似 矩阵 。 


类 似 地 ， 设 矩阵 
4 2 = ouv? + ogugve ++ On_2Un_2U!_» 


TW Ano 的 秩 为 n 一 2, FH Ano 是 秩 为 n 一 2 矩阵 中 在 弗 罗 贝 尼 乌 斯 范 数 意义 下 A 
的 最 优 近似 矩阵 。 以 此 类 推 。 ABH, Bee 


Ax = oiuvT 十 02u2vT +--+ OKURUE 


W An 的 秩 为 k, 并 且 A, 是 秩 为 k 的 矩阵 中 在 弗 罗 贝 尼 乌 斯 范 数 意义 下 4 的 最 优 近 
WARE. FEM Ar 就 是 4 的 截断 奇异 值 分 解 。 


于 通常 奇异 值 ci 递减 很 快 , 所 以 取 很 小 值 时 ,A 也 可 以 对 A 有 很 好 的 近似 。 
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例 15.6 由 例 15.1 给 出 的 矩阵 


1 0 0 0 
0 0 0 4 
A= 03 0 0 
0 0 0 0 
20 0 0 


的 秩 为 3, RK 4 的 秩 为 2 的 最 优 近似 。 
解 由 例 15.3 可 知 


0 0 
0 0 
Í 0 
0 1 
wW=)]0], t=] ly], "= » v= 
0 0 
0 0 
1 0 
0 0 
om =4, o2=3 
于 是 得 到 
0 0 0 0 
000 4 
Ag = oyu, + o2u2vp =|!0 3 00 
0 0 0 0 
0 0 0 0 
以 此 矩阵 作为 4 的 最 优 近似 。 图 


本 章 概 要 


1. 矩阵 的 奇异 值 分 解 是 指 将 m x n KEE 4 表示 为 以 下 三 个 实 和 矩阵 乘积 形式 的 
运算 


A=USVT 
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HP U 是 m 阶 正 交 矩阵 , V 是 n MEXER, Xim x n EER AEE 


X = diag(o1,02,:-: ,0p), p= min{m,n} 


其 对 角 线 元 素 非 负 ， 且 满足 


2. 任意 给 定 一 个 实 和 矩阵， 其 奇异 值 分 解 一 定 存在 ,但 并 不 唯一 。 


3. 奇异 值 分 解 包括 紧 奇异 值 分 解 和 截断 奇异 值 分 解 。 紧 奇异 值 分 解 是 与 原始 矩阵 
等 秩 的 奇异 值 分 解 , 截断 奇异 值 分 解 是 比 原始 矩阵 低 秩 的 奇异 值 分 解 。 

4. 奇异 值 分 解 有 明确 的 几何 解释 。 奇异 值 分 解 对 应 三 个 连续 的 线性 变换 ; 一 个 旋 
转变 换 , 一 个 缩放 变换 和 另 一 个 旋转 变换 。 第 一 个 和 第 三 个 旋转 变换 分 别 基于 空间 的 
标准 正 交 基 进 行 。 

5. WIER A 的 奇异 值 分 解 为 4 =USVT, WA 


ATA=V(ZTE)VT 
AAT =U(ZE7)UT 
即 对 称 和 矩阵 ATA 和 AAT 的 特征 分 解 可 以 由 矩阵 4 的 奇异 值 分 解 矩阵 表示 。 
6. 和 矩阵 4 的 奇异 值 分 解 可 以 通过 求 和 矩阵 ATA 的 特征 值 和 特征 向 量 得 到 : ATA 
的 特征 向 量 构成 正 交 矩阵 Y 的 列 ; 从 AAT 的 特征 值 和 ; 的 平方 根 得 到 奇异 值 rc BI 
oj = VN, j= 1,2,--+ on 


对 其 由 大 到 小 排列 ， 作 为 对 角 线 元 素 , 构成 对 角 和 矩阵 Ds 求 正 奇异 值 对 应 的 左 奇 异 向 
量 , 再 求 扩充 的 AT 的 标准 正 交 基 , 构成 正 交 矩阵 U 的 列 。 


7. HEME A = [oj] 的 弗 罗 贝 尼 乌 斯 范 数 定义 为 


lal = (Ee | 


i=1 j=1 


在 秩 不 超过 上 的 mm x n 和 矩阵 的 集合 中 , 存在 矩阵 A 的 弗 罗 贝 尼 乌 斯 范 数 意 义 下 的 最 
EIERE X. PRA k 的 截断 奇异 值 分 解 得 到 的 矩阵 Ar 能 够 达到 这 个 最 优 值 。 奇 异 
值 分 解 是 弗 罗 贝 尼 乌 斯 范 数 意义 下 ,也 就 是 平方 损失 意义 下 的 矩阵 最 优 近似 。 
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8. 任意 一 个 实 和 矩阵 A 可 以 由 其 外 积 展开 式 表示 
A= oyu, 十 azu? 十 :十 OnUnve 


IEP uruf Am xn FEM, 是 列 向 量 wk AGT aE UP 的 外 积 , ok 为 奇异 值 , Uk ves on 
通过 矩阵 4 的 奇异 值 分 解 得 到 。 


要 进一步 了 解 奇异 值 分 解 及 相关 内 容 可 以 参考 线性 代数 教材 , 例如 文献 [1, 2], 也 
可 以 观看 网 上 公开 课程 , 例如 “MIT 18.06SC Linear Algebra”, 文献 [2] 为 其 教科 书 。 
在 计算 机 上 奇异 值 分 解 通常 用 数值 计算 方法 进行 , 奇异 值 分 解 的 数值 计算 方法 , 可 参 
阅 文献 [3, 和 4。 本 章 介绍 的 奇异 值 分 解 是 定义 在 矩阵 上 的 , 奇异 值 分 解 可 以 扩展 到 张 
(tensor) ， 有 两 种 不 同 的 定义 , 张 量 奇异 值 分 解 详 见 文献 [5]。 


习题 
15.1 WREKE 
120 
A= 
l; 0 | 
的 奇异 值 分 解 。 
15.2 ide REM 
2 4 
1 3 
A= 
0 0 
0 0 


的 奇异 值 分 解 并 写 出 其 外 积 展开 式 . 

15.3 ”比较 和 矩阵 的 奇异 值 分 解 与 对 称 和 矩阵 的 对 角 化 的 异同 。 

15.4 证 明 任何 一 个 秩 为 1 的 矩阵 可 写成 两 个 向 量 的 外 积 形式 ， 并 给 出 实例 。 

15.5 ”搜索 中 的 点 击 数据 记录 用 户 搜 索 时 提交 的 查询 语句 , 点 击 的 网 页 URL, 以 
及 点 击 的 次 数 , 构成 一 个 二 部 图 , 其 中 一 个 结 点 集合 {qi;} 表示 查询 ， 另 一 个 结 点 集合 
{uj} 表示 URL, 边 表示 点 击 关 系 , 边 上 的 权重 表示 点 击 次 数 。 图 15.2 是 一 个 简化 的 
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点 击 数据 例 。 点 击 数据 可 以 由 矩阵 表示 ， 试 对 该 矩阵 进行 奇异 值 分 解 ， 并 解释 得 到 的 
三 个 矩阵 所 表示 的 内 容 。 


u 


qı 10 
20 

uz 
92 5 

u3 
93 

1 
1 u4 

q4 

Us 


图 15.2 ”搜索 点 击 数据 例 
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第 16 章 


主 成 分 分 析 


主 成 分 分 析 (principal component analysis, PCA) 是 一 种 常用 的 无 监督 学 习 方 


法 , 这 一 方法 利用 正 交 变换 把 由 线性 相关 变量 表示 的 观测 数据 转换 为 少数 儿 个 由 线性 
无 关 变 量 表示 的 数据 , 线性 无 关 的 变量 称 为 主 成 分 。 主 成 分 的 个 数 通 常 小 于 原始 变量 
的 个 数 , 所 以 主 成 分 分 析 属 于 降 维 方法 。 主 成 分 分 析 主 要 用 于 发 现 数据 中 的 基本 结构 ， 


即 数据 中 变量 之 间 的 关系 ,是 数据 分 析 的 有 力 工具 ,也 用 于 其 他 机 器 学 习 方 法 的 前 处 
理 。 主 成 分 分 析 属 于 多 元 统计 分 析 的 经 典 方法 , 首先 由 Pearson 于 1901 年 提出 , 但 只 


是 针对 非 随 机 变量 ,1933 年 由 Hotelling 推广 到 随机 变量 。 
ASH 16.1 节 介 绍 主 成 分 分 析 的 基本 想法 , 叙述 总 体 主 成 分 分 析 的 定义 、 定 理 与 性 


质 。16.2 节 介 绍 样本 主 成 分 分 析 的 概念 ， 


重点 叙述 主 成 分 分 析 的 算法 ,包括 协 方差 矩 


阵 的 特征 值 分 解 方法 和 数据 矩阵 的 奇异 值 分 解 方法 。 


16.1 总 体 主 成 分 分 析 


16.1.1 基本 想法 
统计 分 析 中 , 数据 的 变量 之 间 可 能 存 


虑 由 少数 不 相关 的 变量 来 代替 相关 的 变量 ,用 来 表示 数据 ,， 并且 要 求 能 够 保留 数据 中 


的 大 部 分 信息 。 


主 成 分 分 析 中 , 首先 对 给 定数 据 进行 
差 为 1。 之 后 对 数据 进行 正 交 变换 ,原来 


在 相关 性 , 以 致 增加 了 分 析 的 难度 。 于 是 , 考 


规范 化 , 使 得 数据 每 一 变量 的 平均 值 为 0, 方 
昌 线 性 相关 变量 表示 的 数据 , 通过 正 交 变换 变 


成 由 若干 个 线性 无 关 的 新 变量 表示 的 数据 。 新 变量 是 可 能 的 正 交 变 换 中 变量 的 方差 的 


和 (信息 保存 ) 最 大 的 , 方差 表示 在 新 变 


量 上 信息 的 大 小 。 将 新 变量 依次 称 为 第 一 主 


成 分 、 第 二 主 成 分 等 。 这 就 是 主 成 分 分 析 的 基本 思想 。 通 过 主 成 分 分 析 ,， 可 以 利用 主 
成 分 近似 地 表示 原始 数据 , 这 可 理解 为 发 现 数据 的 “基本 结构 ”; 也 可 以 把 数据 由 少 


数 主 成 分 表示 , 这 可 理解 为 对 数据 降 维 。 


下 面 给 出 主 成 分 分 析 的 直观 解释 。 数 据 集合 中 的 样本 由 实数 空间 ( 正 交 坐标 系 ) 
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附近 。 对 原 坐标 系 


中 的 点 表示 , 空间 的 一 个 坐标 轴 表 示 一 个 变量 , 规范 化 处 理 后 得 到 的 数据 分 布 在 原点 
中 的 数据 进行 主 成 分 分 析 等 价 于 进行 坐标 系 旋转 变换 , 将 数据 投影 


到 新 坐标 系 的 坐标 轴 上 ; 新 坐标 系 的 第 一 坐标 轴 、 第 二 坐标 轴 等 分 别 表 示 第 一 主 成 分 、 
第 二 主 成 分 等 ,数据 在 每 一 轴 上 的 坐标 值 的 平方 表示 相应 变量 的 方差 ; 并 且 ， 这 个 坐 


标 系 是 在 所 有 可 能 的 新 的 坐标 系 中 ,坐标 轴 上 的 方差 的 和 最 大 的 。 


例如 , 数据 由 两 个 变量 r 和 za KR, 存在 于 二 维 空间 中 , 每 个 点 表示 一 个 样本 ， 
如 图 16.1(a) 所 示 。 对 数据 已 做 规范 化 处 理 , 可 以 看 出 , 这 些 数据 分 布 在 以 原点 为 中 心 
的 左下 至 右上 倾斜 的 椭圆 之 内 。 很 明显 在 这 个 数据 中 的 变量 r 和 zo 是 线性 相关 的 ， 
具体 地 , 当知 道 其 中 一 个 变量 zl 的 取 值 时 , 对 男 一 个 变量 z2 的 预测 不 是 完全 随机 的 ; 


反之 亦 然 。 


主 成 分 分 析 对 数据 进行 正 交 变换 , 具体 地 , 对 原 坐 标 系 进行 旋转 变换 ,并 将 数据 


在 新 坐标 系 表示 , 如 图 16.1(b) 所 示 。 数据 在 原 坐 标 系 由 变量 ar, 和 zo 表示 , 通过 正 


交 变 换 后 , 在 新 坐标 系 里 , H 


新 坐标 系 的 第 一 


坐标 轴 ; 之 后 选择 与 第 一 坐标 轴 了 


日 变量 和 yo 表示 。 主 成 分 分 析 选 择 方差 最 大 的 方向 〈 第 
一 主 成 分 ) 作为 新 坐标 系 的 第 一 坐标 轴 , 即 y 轴 , 在 这 里 意味 着 选择 椭圆 的 长 轴 作 为 


ER, 且 方 差 次 之 的 方向 〈 第 二 主 成 


分 ) 作为 新 坐标 系 的 第 二 坐标 轴 , BI yo 轴 , 在 这 里 意味 着 选择 椭圆 的 短 轴 作为 新 坐标 
系 的 第 二 坐标 轴 。 在 新 坐标 系 里 , 数据 中 的 变量 y 和 yo 是 线性 无 关 的 ， 当 知道 其 中 
一 个 变量 网 的 取 值 时 ， 对 另 一 个 变量 yo 的 预测 是 完全 随机 的 ; 反之 亦 然 . 如 果 主 成 
分 分 析 只 取 第 一 主 成 分 , 即 新 坐标 系 的 yi 轴 , 那么 等 价 于 将 数据 投影 在 椭圆 长 轴 上 ， 
用 这 个 主轴 表示 数据 , 将 二 维 空间 的 数据 压缩 到 一 维 空间 中 。 


(a) 


(b) 


图 16.1 主 成 分 分 析 的 示例 


下 面 再 看 方差 最 大 的 解释 。 假设 有 两 个 变量 z1 和 co, 三 个 样本 点 A、B、C，, 样 
本 分 布 在 由 z1 和 co 轴 组 成 的 坐标 系 中 , 如 图 16.2 所 示 。 对 坐标 系 进行 旋转 变换 ，, 得 


16.1 总 体 主 成 分 分 析 299 


到 新 的 坐标 轴 yo 表示 新 的 变量 y EEA A B.C 在 yi 轴 上 投影 , 得 到 yi 轴 的 
坐标 值 4、B'、C'。 坐标 值 的 平方 和 OA? + OB? + OC” 表示 样本 在 变量 y 上 的 方 
差 和 。 主 成 分 分 析 则 在 选取 正 交 变换 中 方差 最 大 的 变量 , 作为 第 一 主 成 分 , 也 就 是 旋 
转变 换 中 坐标 值 的 平方 和 最 大 的 轴 。 注意 到 旋转 变换 中 样本 点 到 原点 的 距离 的 平方 和 
OA? + OB? + OC? 保持 不 变 , 根据 勾 股 定理 , 坐标 值 的 平方 和 OA? + OB”? + OC” 
最 大 等 价 于 样本 点 到 yy 轴 的 距离 的 平方 和 AA? + BB? + CC'2 最 小 。 所 以 , 等 价 地 ， 
主 成 分 分 析 在 旋转 变换 中 选取 离 样本 点 的 距离 平方 和 最 小 的 轴 ， 作为 第 一 主 成 分 。 第 
二 主 成 分 等 的 选取 , 在 保证 与 已 选 坐标 轴 正 交 的 条 件 下 , 类 似 地 进行 。 


图 16.2 ” 主 成 分 的 几何 解释 


在 数据 总 体 (population) 上 进行 的 主 成 分 分 析 称 为 总 体 主 成 分 分 析 , 在 有 限 样本 
上 进行 的 主 成 分 分 析 称 为 样本 主 成 分 分 析 , 前 者 是 后 者 的 基础 。 以 下 分 别 予 以 介绍 。 


16.1.2 ”定义 和 导出 
假设 z = (21, 7z2,… 2m)" 是 mm 维 随机 变量 , 其 均值 向 量 是 jy 
b= Er)= (p12, , Hm)” 


协 方差 矩阵 是 D 


E = cov(e,2) = El(z — n)(@ — 1) 
考虑 由 mm 维 随机 变量 z 到 m 维 随机 变量 y = (yi,y2,… ,ym)T 的 线性 变换 


Yi = Of T = QT1 + Q2iT2 + + OmiTm (16.1) 


其 中 az = (aj, azi, , Ami)» t= 1,2,--+ 5m 
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1 随机 变量 的 性 质 可 知 ， 
BE(yi) =afp, 1=1,2,---,m (16.2) 
var(y) = of Dan 1=1,2,...,m (16.3) 
cov(yi, yj) = a} Xaj, i=1,2, oe PH 18s Mm (16.4) 
下 面 给 出 总 体 主 成 分 的 定义 。 


定义 16.1 (总 体 主 成 分 ) ”给 定 一 个 如 式 (16.1) 所 示 的 线性 变换 ， 如 果 它们 满足 
下 列 条 件 : 

(1) 系数 向 量 aT 是 单位 向 量 ， 即 az ai =1, i=1,2,---,m; 

(2 ) 变量 yi 5 yj ARAA, PP cov(yi,yj) = 0(i 4 j); 

(3) 变 量 是 z 的 所 有 线性 变换 中 方差 最 大 的 ; yo ZH y 不 相关 的 的 所 有 
线性 变换 中 方差 最 大 的 ; 一 般 地 , yi ZH yr, yo, Yi- (i = 1,2,… ,m) 都 不 相关 
x 的 所 有 线性 变换 中 方差 最 大 的 ; 这 时 分 别称 册 ,y2，…… ,Ym 为 的 第 一 主 成 分 、 
第 二 主 成 分 、.…、 第 m 主 成 分 。 

定义 中 的 条 件 (1) 表明 线性 变换 是 正 交 变换 , ql, az，… ,am 是 其 一 组 标准 正 交 基 ， 


| l, i=j 
0, i#j 
条 件 (2) (3) 给 出 了 一 个 求 主 成 分 的 方法 : 第 一 步 , 在 xz 的 所 有 线性 变换 
ale = San 
i=1 


中 , Æ aTa = 1 条 件 下 , 求 方差 最 大 的 , 得 到 zx 的 第 一 主 成 分 ; 第 二 步 , 在 与 af zx 
不 相关 的 zx 的 所 有 线性 变换 


m 
az z = > Qi2Ti 
i=1 


H, 在 aFas = 1 条 件 下 ， 求 方差 最 大 的 ， 得 到 z 的 第 二 主 成 分 ; Wk 步 ， 在 与 
als, aJe,- ,az yx 不 相关 的 a 的 所 有 线性 变换 


m 
alz = J QikTi 
i=1 


中 , Æ alar = 1 条 件 下 , 求 方差 最 大 的 , 得 到 oc 的 第 k ERD: 如 此 继续 下 去 , 直到 
得 到 x 的 第 mm 主 成 分 。 
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16.1.3 ”主要 性 质 


首先 叙述 一 个 关于 总 体 主 成 分 的 定理 。 这 一 定理 阐述 了 总 体 主 成 分 与 协 方差 矩阵 
的 特征 值 和 特征 向 量 的 关系 , 同时 给 出 了 一 个 求 主 成 分 的 方法 。 

定理 16.1 Keim 维 随 机 变量 , Dee Haw ZH, DV 的 特征 值 分 别 是 
和 1 > Xa S++ SAm SO, 特征 值 对 应 的 单位 特征 向 量 分 别 是 alaz,…… ,am， 则 严 的 
第 大 主 成 分 是 


Yk = AFT =alikzl 十 aakz2 十 … 十 amkZm， k=1,2,---,m (16.5) 
2 HR k 主 成 分 的 方差 是 
var(yk) = af Dap = àk, k=1,2, ,mm (16.6) 
BP tha LAB DR k 个 特征 值 。 四 


证 明 采用 拉 格 朗 日 乘 子 法 求 出 主 成 分 。 


首先 求 s 的 第 一 主 成 分 yy = afzx, 即 求 系数 向 量 oa。 由 定义 16.1 知 , 第 一 主 成 
分 的 aa 是 在 aTa = 1 RF, z 的 所 有 线性 变换 中 使 方差 


var(atz) = aT Xar 


达到 最 大 的 。 
求 第 一 主 成 分 就 是 求解 约束 最 优化 问题 : 
max aT Say (16.7) 
s.t. ata, =i 


定义 拉 格 朗 日 函数 


al Sa, — (ata, — 1) 


其 中 入 是 拉 格 朗 日 乘 子 。 将 拉 格 朗 日 函数 对 al 求 导 , 并 令 其 为 0, 得 


Sa, 一 Xal 王 0 


© 车 特征 值 有 重 根 ,对 应 的 特征 向 量 组 成 m 维 空间 Rm 的 一 个 子 空间 , 子 空间 的 维 数 等 于 重 根 数 ， 
在 子 空间 任 取 一 个 正 交 坐标 系 , 这 个 坐标 系 的 单位 向 量 就 可 作为 特征 向 量 。 这 时 坐标 系 的 取 法 不 唯一 。 
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此 , AED 的 特征 值 ,aa 是 对 应 的 单位 特征 向 量 。 于 是 , 目标 函数 


aT Da = al ray = dat ay =X 


假设 aa FE DS 的 最 大 特征 值 Xi 对 应 的 单位 特征 向 量 , 显然 ai 与 Ai 是 最 优化 问 
题 的 解 @。 所 以 , aTz 构成 第 一 主 成 分 , 其 方差 等 于 协 方差 矩阵 的 最 大 特征 值 


var(afz) = af Ya, = A (16.8) 


接着 求 z 的 第 二 主 成 分 y = ata. 第 二 主 成 分 的 az 是 在 af as = 1, Hata 与 
ala 不 相关 的 条 件 下 , s 的 所 有 线性 变换 中 使 方差 


var(aTz) = af Dag 


达到 最 大 的 。 
求 第 二 主 成 分 需要 求解 约束 最 优化 问题 
max as Sag (16.9) 
s.t. al Sag =0, ad Say =0 
at ag = 1 
注意 到 
al Sag = af Say = ad Ma = Xiazal = Àa ag 
以 及 
aTaz =0, at ay =0 
定义 拉 格 朗 日 函数 


ad Sag — Aad a — 1) — bad a 


其 中 入, $ 是 拉 格 朗 日 乘 子 。 对 a: KE, 并 令 其 为 0, 得 


2Xaz 一 2Xa2z — da, = 0 (16.10) 


将 方程 左 乘 以 of 有 


2aT Dae 一 2XaTas 一 gata, =0 


O 为 了 叙述 方便 , 这 里 将 变量 和 其 最 优 值 用 同一 符号 表示 。 
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此 式 前 两 项 为 0, Hata, = 1, 导出 $= 0, 因此 式 (16.10) 成 为 
Laz == 入 a2 =0 
由 此 , A Æ D WREE, a 是 对 应 的 单位 特征 向 量 。 于 是 , 目标 函数 


ad Sag = azXas = Mol œ = À 


假设 ag Æ D 的 第 二 大 特征 值 X? 对 应 的 单位 特征 向 量 , 显然 aa 与 A 是 以 上 
最 优化 问题 的 解 咯 。 于 是 oT a 构成 第 二 主 成 分 ， 其 方差 等 于 协 方差 矩阵 的 第 二 大 特 
征 值 ， 


var(aJTz) = af Daz = d2 (16.11) 


— Ahh, a 的 第 ERDE afe, 并 且 var(aZx) = Ap XE Ar ED 的 第 大 个 
特征 值 并 且 ax 是 对 应 的 单位 特征 向 量 。 可 以 从 个 第 一 1 主 成 分 出 发 递 推 证 明 第 
个 主 成 分 的 情况 , 这 里 省 去 。 

按照 上 述 方法 求 得 第 一 、 第 二 、 直 到 第 m ERD, 其 系数 向 量 a a2) +++) Om 
分 别 是 忆 的 第 一 个 、 第 二 个 、 直 到 第 m 个 单位 特征 向 量 , Ap, 和 2,… Am 分别 是 对 应 
的 特征 值 。 并 且 , 第 k 主 成 分 的 方差 等 于 忆 的 第 个 特征 值 ， 


var(ajpa) = af Dan = Ax, k=1,2,..,m (16.12) 


定理 证 毕 。 国 
1 定理 16.1 得 到 


推论 16.1 m 维 随机 变量 8 = (y1, Y2 Ym) 的 分 量 依次 是 r 的 第 一 主 成 分 
到 第 m 主 成 分 的 充 要 条 件 是 : 


(1)y=ATa, A AERA 


Ql 12 Qim 

Q21 Q22 ` Q2m 
A= 

Ami Am2 ` Amm 


O 为 了 叙述 方便 , 这 里 将 变量 和 其 最 优 值 用 同一 符号 表示 。 
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(2) y HA ZARA xt A SE 
cov(y) = diag(A1, A2,-- , Am) 
MAM Am 


KP, RD OR k MEE, a, 是 对 应 的 单位 特征 向 量 , k= 1,2,---,m 
以 上 证 明 中 , 和 x ED 的 第 个 特征 值 ， ax 是 对 应 的 单位 特征 向 量 , 即 


Dak = ÀkQk, = 1,2; vs ,m (16.13) 
用 矩阵 表示 即 为 
5A= AA (16.14) 


这 里 4 = [aij]mxm， A 是 对 角 和 矩阵 , 其 第 个 对 角 元 素 是 和 1。 因为 A 是 正 交 矩阵, 即 
ATA = AAT = 1, bR (16.14) 得 到 两 个 公式 


ATSA=A (16.15) 


5 = AAAT (16.16) 


下 面 叙 述 总 体 主 成 分 的 性 质 : 
D 总 体 主 成 分 y 的 协 方差 矩阵 是 对 角 和 矩阵 


cov(y) = A = diag(A1, X2…，Xm) (16.17) 
(2) 总 体 主 成 分 y 的 方差 之 和 等 于 随机 变量 z 的 方差 之 和 , 即 
Soi = So oii (16.18) 
i=1 i=1 


其 中 ou 是 随机 变量 ri 的 方差 , 即 协 方差 矩阵 D 的 对 角 元 素 。 事实 上 , 利用 式 (16.16) 
及 矩阵 的 迹 (trace) 的 性 质 , 可 知 


St =tr(2T) = tr(AAA*) = tr(ATAA) 
i=1 


(16.19) 


1 
= 
Il 
14s 
i it 
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(3) 第 k 个 主 成 分 y 与 变量 ri 的 相关 系数 ply xi) 称 为 因子 负荷 量 (factor 
loading) ， 它 表示 第 个 主 成 分 yx 与 变量 ri 的 相关 关系 。 计算 公式 是 


入 5 
(Ye ri) = VEZE, ki=1,2,--,m (16.20) 
Tii 
因为 
cov(Yk, ti) _ cov(atz,elz) 


Pils) Tectia /wae 
其 中 e 为 基本 单位 向 量 , 其 第 i 个 分 量 为 1, 其 余 为 0。 再 由 协 方差 的 性 质 


cov(al ax, ela) af De; el Sap Akel ak ÀkQik 


故 得 式 (16.20)。 
(4) F k DERD yk 与 m 个 变量 的 因子 负荷 量 满足 


m 
> cup (Yr 2i) = Ak (16.21) 
i=1 


13Ñ (16.20) 有 


m m 
> oup (yr, 2i) = X Ma = Akak ak = Ak 


i=1 i=1 


(5) m 个 主 成 分 与 第 i 个 变量 wm% 的 因子 负荷 量 满足 


X (ye, zi) =1 (16.22) 


1 于 yi1,y2，… ,ym 互 不 相关 , 故 


m 
P (ai; (Ys Ya Ym)) = X. P (YR, Ti) 
k=1 


又 因 zi 可 以 表 为 yi,y2，,… ,ym 的 线性 组 合 , 所 以 zi 与 yi,y2，… ,ym 的 相关 系数 的 
平方 为 1, B 


P (xi, (Yr, Y2 ,Ym)) = 1 


故 得 式 (16.22)。 
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16.1.4” 主 成 分 的 个 数 


主 成 分 分 析 的 主要 目的 是 降 维 , 所 以 一 般 选择 有 (k < m) 个 主 成 分 (线性 无 关 变 
量 ) 来 代替 m 个 原 有 变量 (线性 相关 变量 ), 使 问题 得 以 简化 , 并 能 保留 原 有 变量 的 大 
部 分 信息 。 这 里 所 说 的 信息 是 指 原 有 变量 的 方差 。 为 此 , 先 给 出 一 个 定理 , 说 明 选 择 
个 主 成 分 是 最 优选 择 。 


定理 16.2 对 任意 正 整 数 g, 1<q<m 考虑 正 交 线 性 变换 


y = By (16.23) 
其 中 yy 是 gq 维 向 量 ，BT 是 g xm BH, Ay 的 协 方差 矩阵 为 
Sy = BSB (16.24) 
则 Dy doze tr(Sy) A B= A, 时 取得 最 大 值 , 其 中 矩阵 A, HERE A 的 前 q 列 组 成 。 


证 明 令 B 是 B 的 第 k 列 , 由 于 正 交 和 矩阵 4 的 列 构成 mm 维 空间 的 基 , 所 以 Bk 
可 以 由 A 的 列表 示 , 即 


m 
Bk = >> cjkaj, k=1,2,---,q 
j=l 


等 价 地 
B=AC (16.25) 
其 中 C 是 m xd FEB, 其 第 j 行 第 大 列 元 素 为 cik。 
首先 ; 


BT SB = CT4T24C = CT4C = 》 NMcjcy 
j=l 


eh cT 是 C 的 第 行 。 因此 


tr(BTZPB) = ae tr(cjcp ) 


m q 
= VV (16.26) 


16.1 总 体 主 成 分 分 析 307 


其 次 , 由 式 (16.25) 及 A 的 正 交 性 知 
C=A'B 


由 于 4 是 正 交 的 , B 的 列 是 正 交 的 , 所 以 


COTO=B AATB = B'B=I, 
即 C 的 列 也 是 正 交 的 。 于 是 


tr(CTC) = tr(Iq) 


Sy, = (16.27) 


j=1 k=1 


这 样 , 矩阵 C 可 以 认为 是 某 个 m MEXER D 的 前 g 列 。 正 交 和 矩阵 D 的 行 也 
正 交 , 所 以 满足 


djdj=1, j=1,2,---,m 


其 中 dF Æ D WA j 行 。 由 于 矩阵 DD 的 行 包括 矩阵 C 的 行 的 前 9 个 元 素 , 所 以 


fey <1, j=1,2,,m 

即 a 
Do <1, j=1,2 -m (16.28) 
k=1 


q 
注意 到 在 式 (16.26) H Y c3, 是 入 的 系数 ， 由 式 (16.27) 这 些 系数 之 和 是 q 且 
k= 
HR (16.28) 知 这 些 系数 小 于 等 于 L 因为 AN > 和 Doe > 和 Bo > Ame 显然, 当 


能 找到 cik 使 得 
È 了 = aai 
0, j=atl,---,m 


™ 
Ms 
i 
co 
Il 


m q 
时 , 》， (Se) 最 大 。 THM B= A, 时 , 有 


j=1 \k=1 


0， 其 他 
满足 式 (16.29)。 所 以 , 当 B = A; 时 , tr(Ly) 达到 最 大 值 。 E 


f 1<j=k<q 
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定理 16.2 表明 , 当 zw 的 线性 变换 y 在 B = A, 时, 其 协 方差 矩阵 2 HWE tr(Ly) 
取得 最 大 值 , 这 就 是 说 , 当 取 4 的 前 g 列 取 z 的 前 gq 个 主 成 分 时 , 能 够 最 大 限度 地 保 
留 原 有 变量 方差 的 信息 。 

定理 16.3 考虑 正 交 变换 


y= Bx 


这 里 BT 是 px m HF, A 和 Ly 的 定义 与 定理 16.2 相同 , 则 tr(Ly) A B= A, 时 
取得 最 小 值 ， 其 中 矩阵 A, 由 4 的 后 p 列 组 成 。 
证 明 类 似 定 理 16.2， 有 兴趣 的 读者 可 以 自行 证 明 。 定 理 16.3 可 以 理解 为 ， 当 
BH A 的 后 p 列 , 即 舍弃 变量 x 的 后 p 个 主 成 分 时 ， 原 有 变量 的 方差 的 信息 损失 
最 少 。 

以 上 两 个 定理 可 以 作为 选择 k 个 主 成 分 的 理论 依据 。 具体 选 择 k 的 方法 , 通常 利 
用 方差 贡献 率 。 

定义 16.2 Fk ERA yk 的 方差 贡献 率 定 义 为 yk 的 方差 与 所 有 方差 之 和 的 比 ， 
记 作 nk 


ga" (16.30) 
> 
i=l 
k 个 主 成 分 yi, Yo. Ue 的 累计 方差 贡献 率 定义 为 个 方差 之 和 与 所 有 方差 之 和 的 比 
k 
k x 
Yn = (16.31) 
i=1 D f 


t=1 


通常 取 使 得 累计 方差 贡献 率 达 到 规定 的 百分比 以 上 , 例如 70% ~80% AE. R 
计 方 差 贡 献 率 反映 了 主 成 分 保留 信息 的 比例 , 但 它 不 能 反映 对 某 个 原 有 变量 x; 保留 
信息 的 比例 , 这 时 通常 利用 个 主 成 分 i, ye, ,yx 对 原 有 变量 ri 的 贡献 率 。 

定义 16.3 k SERA Yi, Y2,°°° ,Yk 对 原 有 变量 zi 的 贡献 率 定 义 为 zi 与 
(V1,Yy2，"… Yk) 的 相关 系数 的 平方 ， 记 作 vi 


vi = p? (xi, (yr, Yas-** ,Yk)) 


计算 公式 如 下 : 


1 n. 
vi = P (2i, (YY Ye) = X Pleny) = D> (16.32) 
j=l 
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16.1.5 规范 化 变量 的 总 体 主 成 分 

在 实际 问题 中 , 不 同 变量 可 能 有 不 同 的 量 纲 , 直接 求 主 成 分 有 时 会 产生 不 合理 的 

结果 。 为 了 消除 这 个 影响 , 常常 对 各 个 随机 变量 实施 规范 化 , 使 其 均值 为 0, 方差 为 1。 
Wx = (21,22, Em)! Am 维 随 机 变量 ，zx; 为 第 i 个 随机 变量 ,i = 

1,2,---,m, > 


gat ED ym (16.33) 
var(z;) 
IEP Ezi) var(zi) 分 别 是 随机 变量 x; 的 均值 和 方差 , 这 时 zy 就 是 zi 的 规范 化 随机 
变量 。 
显然 , 规范 化 随机 变量 的 协 方差 矩阵 就 是 相关 矩阵 RR。 主 成 分 分 析 通 常 在 规范 化 
随机 变量 的 协 方差 矩阵 即 相 关 和 矩阵 上 进行 。 
对 照 总 体 主 成 分 的 性 质 可 知 , 规范 化 随机 变量 的 总 体 主 成 分 有 以 下 性 质 : 


(1) 规范 化 变量 主 成 分 的 协 方差 矩阵 是 


At = diag( 对 , A5.) (16.34) 


HEP AT > Ag > + DAM, SO AIRE R 的 特征 值 。 
(2) 协 方差 矩阵 的 特征 值 之 和 为 m 


m 
SoA =m (16.35) 


(3) 规范 化 随机 变量 ot 与 主 成 分 yp 的 相关 系数 (因子 负荷 量 ) 为 


p(yk, Ti) = V NECK: k,i= As 2ys + m (16.36) 


其 中 ek = (Cig, Char Can)” AHERE R 对 应 于 特征 值 X 的 单位 特征 向 量 。 
(4) 所 有 规范 化 随机 变量 zy 与 主 成 分 yk 的 相关 系数 的 平方 和 等 于 Dj 


m m 


Ye (yk 22) = Me =A, k=1,2,.,m (16.37) 


i=1 i=1 


(5) 规范 化 随机 变量 of 与 所 有 主 成 分 yp 的 相关 系数 的 平方 和 等 于 1 


Me: 


m 
(ug. 22) = >> Me =1, 1=1,2,---,m (16.38) 
k=1 


Ee 
Il 


1 
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16.2 样本 主 成 分 分 析 


16.1 节 叙 述 了 总 体 主 成 分 分 析 , 是 定义 在 样本 总 体 上 的 。 在 实际 问题 中 , 需要 在 观 
测 数据 上 进行 主 成 分 分 析 , 这 就 是 样本 主 成 分 分 析 。 有 了 总 体 主 成 分 的 概念 ,容易 理 
解 样本 主 成 分 的 概念 。 样 本 主 成 分 也 和 总 体 主 成 分 具有 相同 的 性 质 。 所 以 本 节 重 点 叙 
述 样本 主 成 分 的 算法 


16.2.1 样本 主 成 分 的 定义 和 性 质 


假设 对 m 维 随机 变量 z = (11,12, ,zm)T 进行 n 次 独立 观测 ，z1, L2, ,zn 
表示 观测 样本 , 其 中 zj; = (0013, 22;,… Em) 表示 第 j 个 观测 样本 ,zi; 表示 第 j 个 
观测 样本 的 第 i 个 变量 , 7 = 1,2,… ,mn。 观测 数据 用 样本 和 矩 阵 X 表示 , 记 作 


Til TXT12 … Lin 
T21 T22 … Lan 

X=[c aw © a, |= . . (16.39) 
Tml Tm2 `` Tmn 


给 定 样本 矩阵 X， 可 以 估计 样本 均值 ， 以 及 样本 协 方差 。 样 本 均值 向 量 元 为 


z= p20 (16.40) 
样本 协 方差 矩阵 5 为 
S = [sij]nxm 
85 => 1 1 > (Zik — Ti) (Lik —Zj), ij =1,2,---,m (16.41) 


k=1 


其 中 2, = S YO en 为 第 ; 个 变量 的 样本 均值 , 2) = 上 zit 为 第 了 个 变量 的 样本 
均值 。 k=1 k=1 
样本 相关 算 阵 为 


Sij 


R= [rij]mxm; Tij = i,j =1,2,---,m (16.42) 
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EX m 维 向 量 z = (21,22, ,Zm)” 到 m 维 向 量 y = (1,y2,… Ym)” 的 线性 


变换 
y= ATz 
其 中 
Ql Q12 ` Am 
Q21 Q22 … Gam 
A=[a az am |= 
Qml Am2 ` Amm 
T . 
Qi = (ali02i ami) ， %t=1,2,---,m 


考虑 式 (16.43) 的 任意 一 个 线性 变换 
Yi = aba = aya, + aiL + + Amim, t=1,2,---,m 


HP yi 是 m 维 向 量 y 的 第 i 个 变量 , 相应 于 容量 为 n 的 样本 zl, wo, - 
样本 均值 Ji 为 


1 n 

pn T T= 

n=) QQ 一 民生 
j=l 


其 中 jx 是 随机 向 量 xz 的 样本 均值 
z= = x 
w n 
yi 的 样本 方差 var(yi) 为 
1 n 
var(yi) = — ) (a; zj — a; 2)? 
n-1 2 2 


a-i > (z; z)(£} x)? Qi a} Sa; 


j=l 


对 任意 两 个 线性 变换 y; =0P x, y =ar, 相应 于 容量 为 n 的 样本 21, £2,- 


Yar yk 的 样本 协 方差 为 


cov(yi, Yk) = a; Sar 


(16.43) 


(16.44) 


“Ens yi 的 


(16.45) 


(16.46) 


++ Zane 


(16.47) 
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现在 给 出 样本 主 成 分 的 定义 。 

定义 16.4 (样本 主 成 分 ) ”给 定 样本 矩阵 X., 样本 第 一 主 成 分 yi = ate 是 在 
ata, =1 RHF, 184 ala; (j =1,2, ,n ) 的 样本 方差 aTSal 最 大 的 2 的 线性 
变换 ; 样本 第 二 主 成 分 yo = aba RE ala =1 Fe asa; 5 ala; (j =1,2,---,n) 
的 样本 协 方差 of Sa: = 0 FHF, RF ada; (j = 1,2,… n) 的 样本 方差 dj Say 
最 大 的 oe 的 线性 变换 ; 一 般 地 ， 样 本 第 i 主 成 分 yi = ala RH ala; = 1 和 
ala; 4 apa; (k <i j= 1,2,…,n) 的 样本 协 方 差 afSai; = 0 RAF, 使 得 
azzj (j= 二 1,2,… ,mn ) 的 样本 方差 afSai 最 大 的 c 的 线性 变换 。 
样本 主 成 分 与 总 体 主 成 分 具有 同样 的 性 质 。 这 从 样本 主 成 分 的 定义 容易 看 出 。 只 
要 以 样本 协 方差 矩阵 S 代替 总 体 协 方差 矩阵 OBA. 总体 主 成 分 的 定理 16.2 KE 
H 16.3 对 样本 主 成 分 依然 成 立 。 样 本 主 成 分 的 性 质 不 再 重 述 。 

在 使 用 样本 主 成 分 时 , 一般 假设 样本 数据 是 规范 化 的 , 即 对 样本 矩阵 作 如 下 变换 ; 


gatu n i=1,2, ,mMm; 7 =1,2,---,n (16.48) 


HTAR, UFRR ri 仍 记 作 zi;, 规范 化 的 样本 矩阵 仍 记 作 X. KIN, FF 
本 协 方差 矩阵 S 就 是 样本 相关 矩阵 尺 


R= — xx? (16.49) 


样本 协 方差 矩阵 5 是 总 体 协 方差 矩阵 DCA, 样本 相关 矩阵 RES A 
关 和 矩阵 的 无 偏 估计 ，3 的 特征 值 和 特征 向 量 是 忆 的 特征 值 和 特征 向 量 的 极 大 似 然 估 
计 。 关 于 这 个 问题 本 书 不 作 讨 论 ， 有 兴趣 的 读者 可 参阅 多 元 统计 的 书籍 ， 例 如 文献 [1]。 


16.2.2 ”相关 矩阵 的 特征 值 分 解 算法 

传统 的 主 成 分 分 析 通 过 数据 的 协 方差 矩阵 或 相关 矩阵 的 特征 值 分 解 进行 ,现在 常 
用 的 方法 是 通过 数据 矩阵 的 奇异 值 分 解 进行 。 首 先 叙述 数据 的 协 方差 矩阵 或 相关 和 托 阵 
的 特征 值 分 解 方法 。 


16.2 样本 主 成 分 分 析 313 


给 定 样本 矩阵 入, 利用 数据 的 样本 协 方差 矩阵 或 者 样本 相关 和 矩阵 的 特征 值 分 解 进 
行 主 成 分 分 析 。 具 体 步 又 如 下 : 

(1) 对 观测 数据 按 式 (16.48) 进行 规范 化 处 理 , 得 到 规范 化 数据 矩阵 , 仍 以 X 表示 。 

(2) 依据 规范 化 数据 矩阵 ， 计 算 样 本 相关 和 矩阵 R 


1 
R= Tilmxm = ax 


其 中 


i 
nl 


Tij X tuzi, 1,9 =1,2,---,m 
1=1 
(3) 求 样本 相关 算 阵 R 的 个 特征 值 和 对 应 的 个 单位 特征 向 量 。 
求解 R 的 特征 方程 
|R—Al| =0 


{I R 的 mm 个 特征 值 


k 
求 方差 贡献 率 》 q 达到 预定 值 的 主 成 分 个 数 。 
i=1 


求 前 个 特征 值 对 应 的 单位 特征 向 量 


Qi = (ari, 2i," ami)", i=1,2,...,k 
(4) 求 个 样本 主 成 分 
以 个 单位 特征 向 量 为 系数 进行 线性 变换 , RH k 个 样本 主 成 分 
yi =ala, i=1,2,---,k (16.50) 


(5) 计算 个 主 成 分 yy; 与 原 变量 ri 的 相关 系数 plei yj) 以 及 上 个 主 成 分 对 原 
变量 z; 的 贡献 率 vio 

(6) 计算 n 个 样本 的 大 个 主 成 分 值 

将 规范 化 样本 数据 代入 大 个 主 成 分 式 (16.50), 得 到 n 个 样本 的 主 成 分 值 。 第 也 个 
样本 zj = (£15, 225, Emi)" 的 第 i 主 成 分 值 是 


m 
= (i ap 》 

Yij = (ali)a2i +> Ami) (rij T i) = QliTij 
l=1 


t=1,2,---,m, j=1,2,.…,n 


E 成 分 分 析 得 到 的 结果 可 以 用 于 其 他 机 器 学 习 方法 的 输入 。 比 如 , 将 样本 点 投影 
到 以 主 成 分 为 坐标 轴 的 空间 中 ,然后 应 用 聚 类 算法 ,就 可 以 对 样本 点 进行 聚 类 。 


i Lib 
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下 面 举例 说 明 主 成 分 分 析 方法 。 
例 16.1 假设 有 mn 个 学 生 参 加 四 门 课程 的 考试 , 将 学 生 们 的 考试 成 绩 看 作 随 机 
变量 的 取 值 , 对 考试 成 绩 数据 进行 标准 化 处 理 , 得 到 样本 相关 和 矩阵 R, 列 于 表 16.1。 


表 16.1 ”样本 相关 矩阵 R 


课程 语文 外 语 数学 物理 
语文 1 0.44 0.29 0.33 
外 语 0.44 1 0.35 0.32 
数学 0.29 0.35 1 0.60 
物理 0.33 0.32 0.60 1 

试 对 数据 进行 主 成 分 分 析 。 


解 ” 设 变量 z1, 22,23,14 分 别 表示 语文 、 外 语 、 数 学 、 物 理 的 成 绩 。 对 样本 相关 
和 矩阵 进行 特征 值 分 解 ,得 到 相关 矩阵 的 特征 值 ， 并 按 大 小 排序 ， 


At =2.17, Ag =0.87, Az3=0.57, Aq =0.39 


这 些 特征 值 就 是 各 主 成 分 的 方差 贡献 率 。 假 设 要 求 主 成 分 的 累计 方差 贡献 率 大 于 75%， 
那么 只 需 取 前 两 个 主 成 分 即 可 , Bk = 2, 因为 
Ai + Ag 
4 


Tih 
i=1 


求 出 对 应 于 特征 值 和 1, Ao 的 单位 特征 向 量 , 列 于 表 16.2, 表 中 最 后 一 列 为 主 成 分 的 方 


=0.76 


表 16.2 单位 特征 向 量 和 主 成 分 的 方差 贡献 率 


项 目 Tı T2 T3 T4 方差 贡献 率 
yı 0.460 0.476 0.523 0.537 0.543 
y2 0.574 0.486 —0.476 —0.456 0.218 


1 此 按照 式 (16.50) 可 得 第 一 、 第 二 主 成 分 : 


yı = 0.4602, 十 0.476z2 + 0.52323 十 0.53774 
yo = 0.5742, + 0.48622 — 0.47623 — 0.45624 


这 就 是 主 成 分 分 析 的 结果 。 E y Al yo 表示 第 一 、 第 二 主 成 分 。 
接 下 来 由 特征 值 和 单位 特征 向 量 求 出 第 一 、 第 二 主 成 分 的 因子 负荷 量 ,以 及 第 一 、 
第 二 主 成 分 对 变量 xz; 的 贡献 率 , 列 于 表 16.3。 
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表 16.3 ” 主 成 分 的 因子 负荷 量 和 贡献 率 
项 目 zı T2 T3 T4 
yı 0.678 0.701 0.770 0.791 
yo 0.536 0.453 一 0.444 一 0.425 
yr, yo 对 zi 的 贡献 率 0.747 0.697 0.790 0.806 


从 表 16.3 中 可 以 看 出 , 第 一 主 成 分 y 对 应 的 因子 负荷 量 ply xi) i = 1,2,3,4, 


均 为 了 
学 4 


表明 物理 成 绩 在 整体 成 绩 中 占 最 重要 位 置 。 
第 二 主 成 分 yo 对 应 的 因子 负荷 量 p(yo, zi);i = 1,2,3,4, 有 正 有 负 , 正 的 是 语文 和 
外 语 , 负 的 是 数学 和 物理 , 表明 文科 成 绩 提高 都 可 使 yo 提高 , 而 理科 成 绩 提高 都 可 使 
yo 降低 ,也 就 是 说 , 第 二 主 成 分 yo 反映 了 学 生 的 文科 成 绩 与 理科 成 绩 的 关系 。 
图 16.3 将 原 变 量 zl, 12, 23, 24 (分 别 表示 语文 、 外 语 、 数学、 物理) 和 主 成 分 yn, yo 


(分 别 表示 整体 成 绩 、 文科 对 理科 成 绩 ) 的 因子 负荷 量 在 平面 坐标 系 中 表示 。 可 以 看 


ER, 表明 各 门 课程 成 绩 提高 都 可 使 y 提高 , 也 就 是 说 , 第 一 主 成 分 反映 了 
E 的 整体 成 绩 。 还 可 以 看 出 , 因子 负荷 量 的 数值 相近 ， 且 pl, ra) 的 数值 最 大 ,这 


u 


B] 


变量 之 间 的 关系 。4 个 原 变量 聚 成 了 两 类 ; 因子 负荷 量 相近 的 语文 、 外 语 为 一 类 , 数 


学 、 物 理 为 一 类 , 前 者 反映 文科 课程 成 绩 , 后 者 反映 理科 课程 成 绩 。 n 
文科 成 绩 A pos, 
| /语文 、、 
jo ow 4h 
0 iy e 外 语 ! 
x u d 
Ry 
= Ji 
= 整体 成 绩 
pa oa) 
BF © 4 六 
-0.5 上 | 3 oe 
理科 成 绩 
图 16.3 ”因子 负荷 量 的 分 布 图 
16.23 ”数据 矩阵 的 奇异 值 分 解 算法 
给 定 样本 矩阵 X, 利用 数据 矩阵 奇异 值 分 解 进行 主 成 分 分 析 。 具 体 过 程 如 下 。 这 
里 假设 有 大 个 主 成 分 。 
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参照 式 (15.19), 对 于 m x n KERE A, 假设 其 秩 为 r, 0 < 大 < 7， 则 可 以 将 矩阵 
4 进行 截断 奇异 值 分 解 
A UDEV 
IP Up Æ m x k HEBE, Vp den x k HEE, Dp 是 上 阶 对 角 和 矩阵 ; Uks Vk 分 别 由 取 A 
的 完全 奇异 值 分 解 的 矩阵 U,V 的 前 列 , Se 由 取 A 的 完全 奇异 值 分 解 的 矩阵 的 
前 大 个 对 角 线 元 素 得 到 。 

定义 一 个 新 的 nx m 矩阵 X 


x (16.51) 


X! 的 每 一 列 均值 为 零 。 不 难得 知 ， 


wr (ghey) (gi) 
1 


= a= (16.52) 


即 XTX' 等 于 XX 的 协 方差 矩阵 Sx。 


Sx = X'TX’ (16.53) 


主 成 分 分 析 归 结 于 求 协 方差 矩阵 Sx 的 特征 值 和 对 应 的 单位 特征 向 量 , 所 以 问题 转化 
为 求 矩阵 XTX’ 的 特征 值 和 对 应 的 单位 特征 向 量 。 

假设 X' 的 截断 奇异 值 分 解 为 X' = USVT, 那么 V 的 列 向 量 就 是 Sx =X'TX' 
的 单位 特征 向 量 。 因此 , V 的 列 向 量 就 是 X WERS. TE KX 主 成 分 可 以 通过 
KX 的 奇异 值 分 解 来 实现 。 具 体 算 法 如 下 。 

算法 16.1 ( 主 成 分 分 析 算法 ) 

输入 : m x n 样本 矩阵 X， 其 每 一 行 元 素 的 均值 为 零 ; 

输出 : k x n 样本 主 成 分 矩阵 了 。 

参数 : 主 成 分 个 数 

(1) 构造 新 的 nx mm 和 矩阵 


X! 每 一 列 的 均值 为 零 。 
(2) 对 矩阵 X' 进行 截断 奇异 值 分 解 , 得 到 


X'=UXVT 
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Ak SS SMA. 奇异 向 量 。 MEV 的 前 大 列 构成 k 个 样本 主 成 分 。 
(3) HK x n 样本 主 成 分 矩阵 


Y=VTX 国 


本 章 概 要 


1. 假设 z 为 mm 维 随 机 变量 , 其 均值 为 u 协 方差 矩阵 为 De 
考虑 由 mm 维 随机 变量 x 到 m 维 随机 变量 y 的 线性 变换 


yi sara = >》 ante, i=1,2,--+,m 
k=1 
其 中 az = (ari, Qi, ,Ami)e 

如 果 该 线性 变换 满足 以 下 条 件 , 则 称 之 为 总 体 主 成 分 : 

(1) ata; =1, i=1,2,---,m; 

(2) cov(yi,y;) = 0(i F j); 

(3) EE y 是 z 的 所 有 线性 变换 中 方差 最 大 的 ; yo 是 与 y 不 相关 的 & 的 所 有 
线性 变换 中 方差 最 大 的 ; 一 般 地 , yi 是 与 ,ya Yi- (i = 1,2,… ,m) 都 不 相关 
的 zw 的 所 有 线性 变换 中 方差 最 大 的 ; 这 时 分 别称 yn yon ,ym 为 xz 的 第 一 主 成 分 、 
第 二 主 成 分 、…、 第 m 主 成 分 。 

2. 假设 z Em 维 随机 变量 ， 其 协 方差 矩阵 是 S, S 的 特征 值 分 别 是 和 > 
A2 S++ > Am > 0, 特征 值 对 应 的 单位 特征 向 量 分 别 是 a, qz,… Ams Wa 的 第 i 
主 成 分 可 以 写作 


m 
g 
n-de- eum, a 
k=1 


并 且 , z 的 第 i 主 成 分 的 方差 是 协 方差 矩阵 DNS i 个 特征 值 ， 即 


var(y;) = al Sa; = Ài 


3. 主 成 分 有 以 下 性 质 : 
ERD y 的 协 方差 矩阵 是 对 角 和 矩阵 


cov(y) = A = diag(A1, A2,--- , Am) 


ERD y 的 方差 之 和 等 于 随机 变量 oe 的 方差 之 和 
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m m 
> 入 i 一 > Tii 
i=1 i=1 


其 中 oi; 是 zi 的 方差 , 即 协 方差 矩阵 S 的 对 角 线 元 素 。 
主 成 分 yx 与 变量 r; 的 相关 系数 (yn, vi) 称 为 因子 负荷 量 (factor loading), 它 表 


WE k PERD yk 与 变量 ri; 的 相关 关系 , BI yk 对 zi 的 贡献 程度 。 
V MQik 


p(yk, Li) = > k,i=1,2,..…,m 
Oii 


4. 样本 主 成 分 分 析 就 是 基于 样本 协 方差 矩阵 的 主 成 分 分 析 。 


给 定 样本 矩阵 
Til T12 Tin 
T21 T22 Tn 
X=| Ti T2 Ln ] = 
Tml Tm2 ` Imn 


其 中 wj = (Lij, 727 Ema)" FE w 的 第 7 个 独立 观测 样本 , j= 1,2,… , ne 
X 的 样本 协 方差 矩阵 


1 n 
S=[sijlnxm, Sij = pr (aie — Ti)(£jk — Tj) 
k=l 


t=1,2,---,m, j=1,2,---,m 


其 中 z = 二 >》 zu。 
k=l 
给 定 样本 数据 矩阵 X, 考虑 向 量 z 到 y 的 线性 变换 


y= ATz 
这 里 
Ql Q12 `` Alm 
Q21 Q22 `` Gam 
A=| a, az on |= 
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如 果 该 线性 变换 满足 以 下 条 件 , 则 称 之 为 样本 主 成 分 。 样 本 第 一 主 成 分 yi = af a 
是 在 ata, = 1 条 件 下 , 使 得 afzj Gj = 1,2,… ,n) 的 样本 方差 aT Sa, 最 大 的 zw 的 线 
性 变换 ; ERB ERD y = aba EE aza = 1 Ñl alej 4 aba; (j =1,2,--- ,n) 
的 样本 协 方差 aTSas。 = 0 RF, 使 得 of zj (i = 1,2,… ,n) 的 样本 方差 af Say 
大 的 xz 的 线性 变换 ; 一 般 地 ,样本 第 i ERS yi = ale 是 在 ala; = 1 和 
ala; Safa; (k <i, j = 1,2,…,n) 的 样本 协 方差 afSa; = 0 AEF, A 
ala; (j =1,2,--- ,n) 的 样本 方差 af Sa; 最 大 的 x 的 线性 变换 。 

5. 主 成 分 分 析 方 法 主要 有 两 种 ,可 以 通过 相关 和 矩阵 的 特征 值 分 解 或 样本 矩阵 的 奇 
异 值 分 解 进行 。 

(1) 相关 矩阵 的 特征 值 分 解 算法 。 针 对 m x n 样本 矩阵 X, 求 样 本 相关 和 矩阵 


R= — xx? 


再 求 样本 相关 和 矩阵 的 个 特征 值 和 对 应 的 单位 特征 向 量 , 构造 正 交 矩阵 


V = (ov , Uk) 
V 的 每 一 列 对 应 一 个 主 成 分 ,得 到 大 x n 样本 主 成 分 矩阵 
Y=VTX 
(2) 矩阵 X 的 奇异 值 分 解 算法 。 针对 m x n 样本 矩阵 X 
1 
vn-1 
IERE X' 进行 截断 奇异 值 分 解 , 保留 个 奇异 值 、 奇 异 向 量 , 得 到 


x= XT 


X' =usvt 
V 的 每 一 列 对 应 一 个 主 成 分 , 得 到 x n 样本 主 成 分 矩阵 Y 


Y=VIiX 


要 进一步 了 解 主 成 分 分 析 , 可 参阅 文献 [1~4。 可 以 通过 核 方法 隐 式 地 在 高 维 空 
间 中 进行 主 成 分 分 析 ， 相关 的 方法 称 为 核 主 成 分 分 析 (kernel principal component 
analysis) 回 。 主 成 分 分 析 是 关于 一 组 变量 之 间 的 相关 关系 的 分 析 方法 ， 典 型 相关 分 
析 (canonical correlation analysis) 是 关于 两 组 变量 之 间 的 相关 关系 的 分 析 方 法 ©, 
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FE， 强 健 的 主 成 分 分 析 (robust principal component analysis) 被 提出 , 是 主 成 分 分 


析 的 扩展 , 适合 于 严重 受 损 数据 的 基本 结构 发 现 门 。 


习 wh 
16.1 对 以 下 样本 数据 进行 主 成 分 分 析 : 


bees: 
x= 


245 5 6 8 


16.2 ”证明 样本 协 方差 矩阵 5 是 总 体 协 方差 矩阵 方差 DATA 
16.3 BX 为 数据 规范 化 样本 矩阵 , 则 主 成 分 等 价 于 求解 以 下 最 优化 问题 : 


min | 人 一 Ze 
s.t. rank(L) < k 


这 里 F 是 弗 罗 贝 尼 乌 斯 范 数 , k 是 主 成 分 个 数 。 试 问 为 什么 ? 
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潜在 语义 分 析 (latent semantic analysis, LSA) 是 一 种 无 监督 学 习 方 法 , 主要 用 
于 文本 的 话题 分 析 , 其 特点 是 通过 和 矩阵 分 解 发 现 文本 与 单词 之 间 的 基于 话题 的 语义 关 
Fo 潜在 语义 分 析 由 Deerwester 等 于 1990 年 提出 , 最 初 应 用 于 文本 信息 检索 ,， 所 以 
也 被 称 为 潜在 语义 索引 datent semantic indexing, LSI)， 在 推荐 系统 、 图 像 处 理 、 生 
物 信 息 学 等 领域 也 有 广泛 应 用 。 
文本 信息 处 理 中 , 传统 的 方法 以 单词 向 量 表示 文本 的 语义 内 容 ， 以 单词 向 量 空间 
的 度量 表示 文本 之 间 的 语义 相似 度 。 潜 在 语义 分 析 旨 在 解决 这 种 方法 不 能 准确 表示 
语义 的 问题 , 试图 从 大 量 的 文本 数据 中 发 现 潜 在 的 话题 以 话题 向 量 表示 文本 的 语义 
内 容 ， 以 话题 向 量 空间 的 度量 更 准确 地 表示 文本 之 间 的 语义 相似 度 。 这 也 是 话题 分 
析 (topic modeling) 的 基本 想法 。 

潜在 语义 分 析 使 用 的 是 非 概率 的 话题 分 析 模 型 。 具 体 地 , 将 文本 集合 表示 为 单 
词 -文本 和 矩阵， 对 单词 -文本 矩阵 进行 奇异 值 分 解 ， 从 而 得 到 话题 向 量 空间 ， 以 及 文本 
在 话题 向 量 空间 的 表示 。 奇异 值 分 解 (singular value decomposition, SVD) 即 在 第 15 
章 介 绍 的 矩阵 因子 分 解 方法 ， 其 特点 是 分 解 的 矩阵 正 交 。 

非 负 和 矩阵 分 解 (non-negative matrix factorization, NMF) 是 另 一 种 矩阵 的 因子 
分 解 方法 ,其 特点 是 分 解 的 矩阵 非 负 。1999 年 Lee 和 Sheung 的 论文 回 发 表 之 后 , JE 
负 矩 阵 分 解 引 起 高 度 重 视 和 广泛 使 用 。 非 负 和 矩阵 分 解 也 可 以 用 于 话题 分 析 。 

本 章 17.1 节 介 绍 单词 向 量 空间 模型 和 话题 向 量 空 间 模 型 , 指出 进行 潜在 语义 分 
析 的 必要 性 。17.2 节令 述 潜在 语义 分 析 的 奇异 值 分 解 算法 。17.3 ERORE he RE RES AE 


17.1 单词 向 量 空间 与 话题 向 量 空间 


17.1.1 单词 向 量 空间 
文本 信息 处 理 ， 比 如 文本 信息 检索 、 文 本 数据 挖掘 的 一 个 核心 问题 是 对 文本 的 语 
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义 内 容 进 行 表示 ， 并 进行 文本 之 间 的 语义 相似 度 计算 。 最 简单 的 方法 是 利用 向 量 空 
间 模 型 (vector space model, VSM) ， 也 就 是 单词 向 量 空 间 模 型 (word vector space 
model) 。 向 量 空间 模型 的 基本 想法 是 , 给 定 一 个 文本 , 用 一 个 向 量 表示 该 文本 的 “ 语 
MO”, 向 量 的 每 一 维 对 应 一 个 单词 ， 其 数值 为 该 单词 在 该 文本 中 出 现 的 频数 或 权 值 ; BE 
本 假设 是 文本 中 所 有 单词 的 出 现 情况 表示 了 文本 的 语义 内 容 ; 文本 集合 中 的 每 个 文本 
都 表示 为 一 个 向 量 , 存在 于 一 个 向 量 空间 ; 向 量 空间 的 度量 , 如 内 积 或 标准 化 内 积 表 
示 文 本 之 间 的 “语义 相似 度 ”。 

例如 , 文本 信息 检索 的 任务 是 , 用 户 提 出 查询 时 , 帮助 用 户 找到 与 查询 最 相关 的 
文本 ,以 排序 的 形式 展示 给 用 户 。 一 个 最 简单 的 做 法 是 采用 单词 向 量 空间 模型 , 将 查 
询 与 文本 表示 为 单词 的 向 量 , 计算 查询 向 量 与 文本 向 量 的 内 积 , 作为 语义 相似 度 ， 以 
这 个 相似 度 的 高 低 对 文本 进行 排序 。 在 这 里 , 查询 被 看 成 是 一 个 伪 文 本 , 查询 与 文本 
的 语义 相似 度 表 示 查 询 与 文本 的 相关 性 。 

下 面 给 出 严格 定义 。 给 定 一 个 含有 n 个 文本 的 集合 D = {4q1,d2,… ,dn}， 以 及 在 
所 有 文本 中 出 现 的 m 个 单词 的 集合 W = {wi,w2,… ,wm}。 将 单词 在 文本 中 出 现 的 
数据 用 一 个 单词 -文本 矩阵 (word-document matrix) 表示 , WE X 


Til 7Z12 ` Lin 
T21 T22 ‘`’ Lan 

X= (17.1) 
Tml Tm2 *** Lmn 


这 是 一 个 m x n HERE, 元素 zij 表示 单词 wi 在 文本 dj 中 出 现 的 频数 或 权 值 。 由 于 单 
词 的 种 类 很 多 , 而 每 个 文本 中 出 现 单词 的 种 类 通常 较 少 , 所 以 单词 -文本 矩阵 是 一 个 稀 
BERS. 

权 值 通常 用 单词 频率 - 逆 文 本 频率 (term frequency-inverse document frequency, 
TF-IDF) 表示 , 其 定义 是 


tf los A 


TFIDF;; = fy 108 aR," 


$=1,2,---,m; 9=1,2,---5n (17.2) 


式 中 tfiy 是 单词 wi 出 现在 文本 dj 中 的 频数 ,tw 是 文本 dj 中 出 现 的 所 有 单词 的 频 
BULA, df; 是 含有 单词 wi 的 文本 数 , df 是 文本 集合 D 的 全 部 文本 数 。 直 观 上 , 一 个 
单词 在 一 个 文本 中 出 现 的 频数 越 高 ,这 个 单词 在 这 个 文本 中 的 重要 度 就 越 高 ; 一 个 单 
词 在 整个 文本 集合 中 出 现 的 文本 数 越 少 , 这 个 单词 就 越 能 表示 其 所 在 文本 的 特点 , 重 
要 度 就 越 高 ; 一 个 单词 在 一 个 文本 的 TF-IDF 是 两 种 重要 度 的 积 , 表示 综合 重要 度 。 
单词 向 量 空间 模型 直接 使 用 单词 -文本 矩阵 的 信息 。 单 词 -文本 矩阵 的 第 了 列 向 量 
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Tj 表示 文本 d; 
Tij 
z=| |, j=1,2,...n (17.3) 
Tmj 
其 中 zi; 是 单词 wi 在 文本 dj 的 权 值 , i = 1,2,… m, 权 值 越 大 , 该 单词 在 该 文本 中 
的 重要 度 就 越 高 。 这 时 矩阵 X WATS YE X = [r1 za +: Tro 
两 个 单词 向 量 的 内 积 或 标准 化 内 积 (余弦 ) 表示 对 应 的 文本 之 间 的 语义 相似 度 。 
此 , 文本 di 与 dy 之 间 的 相似 度 为 


Tie Tj 


eh ee 17.4 
Teale iy 


Ti è Tj; 
式 中 。 表示 向 量 的 内 积 , |e || 表示 向 量 的 范 数 。 

直观 上 , 在 两 个 文本 中 共同 出 现 的 单词 越 多 , 其 语义 内 容 就 越 相 近 , 这 时 , 对 应 的 
单词 向 量 同 不 为 零 的 维度 就 越 多 ,内 积 就 越 大 (单词 向 量 元 素 的 值 都 是 非 负 的 ), 表示 
两 个 文本 在 语义 内 容 上 越 相 似 。 这 个 模型 虽然 简单 ， 却 能 很 好 地 表示 文本 之 间 的 语义 
相似 度 , 与 人 们 对 语义 相似 度 的 判断 接近 , 在 一 定 程度 上 能 够 满足 应 用 的 需求 ， 至今 
仍 在 文本 信息 检索 、 文 本 数据 挖掘 等 领域 被 广泛 使 用 , 可 以 认为 是 文本 信息 处 理 的 一 
个 基本 原理 。 注意, 两 个 文本 的 语义 相似 度 并 不 是 由 一 两 个 单词 是 否 在 两 个 文本 中 出 
现 决 定 , 而 是 由 所 有 的 单词 在 两 个 文本 中 共同 出 现 的 “模式 ”决定 。 

单词 向 量 空 间 模 型 的 优点 是 模型 简单 ， 计算 效 率 高 。 因 为 单词 向 量 通常 是 稀疏 的 ， 
两 个 向 量 的 内 积 计算 只 需要 在 其 同 不 为 零 的 维度 上 进行 即 可 ， 需 要 的 计算 很 少 , 可 以 
高 效 地 完成 。 单 词 向 量 空间 模型 也 有 一 定 的 局 限 性 ,体现 在 内 积 相似 度 未 必 能 够 准确 
表达 两 个 文本 的 语义 相似 度 上 。 因 为 自然 语言 的 单词 具有 一 词 多 义 性 (polysemy) 及 
多 词 一 义 性 (synonymy)， 即 同一 个 单词 可 以 表示 多 个 语义 , 多 个 单词 可 以 表示 同一 
个 语义 , 所 以 基于 单词 向 量 的 相似 度 计 算 存 在 不 精确 的 问题 。 

图 17.1 给 出 一 个 例子 。 单词 -文本 矩阵 , 每 一 行 表示 一 个 单词 , 每 一 列表 示 一 个 
文本 , 矩阵 的 每 一 个 元 素 表示 单词 在 文本 中 出 现 的 频数 ， 频 数 0 省 略 。 单词 向 量 空 
间 模 型 中 , 文本 di 与 do 相似 度 并 不 高 ， 尽管 两 个 文本 的 内 容 相似 , 这 是 因为 同 义 
词 “airplane” 与 “aircraft” 被 当 作 了 两 个 独立 的 单词 , 单词 向 量 空间 模型 不 考虑 单词 
的 同 义 性 , 在 此 情况 下 无 法 进行 准确 的 相似 度 计算 。 另 一 方面 , 文本 ds 与 ds 有 一 定 
的 相似 度 , 尽管 两 个 文本 的 内 容 并 不 相似 , 这 是 因为 单词 “apple” 具 有 多 义 ,， 可 以 表 
示 “apple computer” #il “fruit”, 单词 向 量 空 间 模型 不 考虑 单词 的 多 义 性 , 在 此 情况 
下 也 无 法 进行 准确 的 相似 度 计算 。 
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dı d ds d4 
airplane 2 
aircraft 2 
computer 1 
apple 2 3 
fruit 1 
produce 1 2 2 1 


图 17.1 A-A E 


12 ”话题 向 量 空间 


两 个 文本 的 语义 相似 度 可 以 体现 在 两 者 的 话题 相似 度 上 。 所谓 话题 (topic)， 并 


没有 严格 的 定义 , 就 是 指 文本 所 讨论 的 内 容 或 主题 。 一 个 文本 一 般 含有 若干 个 话题 。 
如 果 两 个 文本 的 话题 相似 , 那么 两 者 的 语义 应 该 也 相似 。 话题 可 以 由 若干 个 语义 相 
关 的 单词 表示 , 同义词 (如 “airplane” 与 “aircraft”) 可 以 表示 同一 个 话题 , 而 多 义 


词 (如 “apple”) 可 以 表示 不 同 的 话题 。 这 样 , 基于 话题 的 模型 就 可 以 解决 上 述 基于 单 


词 的 模型 存在 的 问题 。 


本 ， 


可 以 设想 定义 一 种 话题 向 量 空间 模型 (topic vector space model) 。 给 定 一 个 文 
用 话题 空间 的 一 个 向 量 表示 该 文本 , 该 向 量 的 每 一 分 量 对 应 一 个 话题 ,其 数值 为 


该 话题 在 该 文本 中 出 现 的 权 值 。 用 两 个 向 量 的 内 积 或 标准 化 内 积 表示 对 应 的 两 个 文本 
的 语义 相似 度 。 注意 话题 的 个 数 通常 远 远 小 于 单词 的 个 数 , 话题 向 量 空间 模型 更 加 抽 


象 。 


量 空间 模型 与 话题 向 量 空间 模型 可 以 互 为 补充 , 现实 中 , 两 者 可 以 同时 使 用 。 


Wm 


在 六 


事实 上 潜在 语义 分 析 正 是 构建 话题 向 量 空间 的 方法 〈 即 话题 分 析 的 方法 ),， 单词 向 


1. 话题 向 量 空间 


给 定 一 个 文本 集合 D={di, d2,… , dn} 和 一 个 相应 的 单词 集合 W = {wi,w2,…， 
}。 可 以 获得 其 单词 -文本 矩阵 和, X 构成 原始 的 单词 向 量 空间 , 每 一 列 是 一 个 文本 
外 词 向 量 空间 中 的 表示 。 


ai) 2 ee ee (17.5) 
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矩阵 X 也 可 以 写作 和 = [zl za +: Erle 


假设 所 有 文本 共 含有 个 话题 。 假设 每 个 话题 由 一 个 定义 在 单词 集合 W 上 的 m 
维 向 量 表示 , 称 为 话题 向 量 , 即 


t= ; 1=1,2,-++,k (17.6) 


其 中 ta 是 单词 wi CET a 的 权 值 , i = 1,2,…… m, WERAK, 该 单词 在 该 话题 中 
的 重要 度 就 越 高 。 这 上 个 话题 向 量 右 ,to,… ,tk 张 成 一 个 话题 向 量 空间 (topic vector 
space)， 维 数 为 k。 注意 话题 向 量 空间 了 是 单词 向 量 空间 X 的 一 个 子 空间 。 


话题 向 量 空间 T 也 可 以 表示 为 一 个 矩阵 ， 称 为 单词 -话题 矩阵 〈word-topic 
matrix) ， 记 作 


tu t2 tik 
tor tog … tor 

Ta i . . (17.7) 
tmi tm2 tmk 


HERET 也 可 以 写作 了 人 = [ti tg +: the 
2. 文本 在 话题 向 量 空间 的 表示 


现在 考虑 文本 集合 D 的 文本 dp 在 单词 向 量 空间 中 由 一 个 向 量 zj 表示 , 将 ay 
投影 到 话题 向 量 空间 T 中, 得 到 在 话题 向 量 空间 的 一 个 向 量力 ， yy 是 一 个 大 维 向 量 ， 
其 表达 式 为 


Yj = » j=1,2,---,n (17.8) 


Ykj 


其 中 yj 是 文本 dj 在 话题 t 的 权 值 , 1 = 1,2,- ,k, 权 值 越 大 , 该 话题 在 该 文本 中 的 


矩阵 Y 表示 话题 在 文本 中 出 现 的 情况 ， 称 为 话题 -文本 矩阵 (topic-document 
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matrix) ， 记 作 


Yl Y2 … Yin 
Ys Ya2 “= Ya 

Y=| 7” i (17.9) 
Yki Yk2 ` Ykn 


HEY 也 可 以 写作 和 = 四 yo > ne 

3. 从 单词 向 量 空间 到 话题 向 量 空间 的 线性 变换 

这 样 一 来 , 在 单词 向 量 空间 的 文本 向 量 zj 可 以 通过 它 在 话题 空间 中 的 向 量 y; 近 
似 表 示 , 具体 地 由 个 话题 向 量 以 y; 为 系数 的 线性 组 合 近 似 表示 。 


Tj X yYijtı + yat + + Ykjtk, J =1,2,---,n (17.10) 


所 以 , 单词 -文本 和 矩阵 X 可 以 近似 的 表示 为 单词 -话题 矩阵 T 与 话题 -文本 矩阵 了 的 乘 
积 形式 。 这 就 是 潜在 语义 分 析 。 
X~TY (17.11) 


直观 上 潜在 语义 分 析 是 将 文本 在 单词 向 量 空间 的 表示 通过 线性 变换 转换 为 在 话 
题 向 量 空间 中 的 表示 , 如 图 17.2 所 示 。 这 个 线性 变换 由 矩阵 因子 分 解 式 (17.11) 的 形 
式 体现 。 图 17.3 示意 性 的 表示 实现 潜在 语义 分 析 的 矩阵 因子 分 解 。 


1 维 空间 4 
k 维 空间 


dı 
线性 变换 2 
SS» 


a; 


dz 
单词 向 量 空间 话题 向 量 空间 


图 17.2 ”将 文本 在 单词 向 量 空间 的 表示 通过 线性 变换 转换 为 话题 空间 的 表示 


AT 


在 原始 的 单词 向 量 空间 中 ,两 个 文本 di 与 dj 的 相似 度 可 以 由 对 应 的 向 量 的 内 积 
表示 , 即 wmi。zj。 经 过 潜在 语义 分 析 之 后 , 在 话题 向 量 空间 中 , 两 个 文本 di 与 dj 的 相 
似 度 可 以 由 对 应 的 向 量 的 内 积 即 yi © yj 表示 。 

要 进行 潜在 语义 分 析 , 需要 同时 决定 两 部 分 的 内 容 , 一 是 话题 向 量 空间 了 T, 二 是 
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L J n 
T L y J 


n k 
图 17.3 ”潜在 语义 分 析 通 过 矩阵 因子 分 解 实现 , 单词 -文本 和 矩阵 XX 可 以 近似 的 
表示 为 单词 -话题 矩阵 T 与 话题 -文本 矩阵 Y 的 乘积 形式 


文本 在 话题 空间 的 表示 7, 使 两 者 的 乘积 是 原始 矩阵 数据 的 近似 , 而 这 一 结果 完全 从 
话题 -文本 矩阵 的 信息 中 获得 。 


17.2 ”潜在 语义 分 析 算 法 
潜在 语义 分 析 利用 矩阵 奇异 值 分 解 ， 具体 地 ， 对 单词 -文本 矩阵 进行 奇异 值 分 解 ， 


将 其 左 矩阵 作为 话题 向 量 空间 , 将 其 对 角 托 阵 与 右 矩 阵 的 乘积 作为 文本 在 话题 向 量 空 
间 的 表示 。 


17.2.1 ”和 矩阵 奇异 值 分 解 算法 


1. 单词 -文本 矩阵 
给 定 文本 集合 D= {di,d2,--- dy} 和 单词 集合 W = {w1, 2 we ,Wm}e 潜在 语 
义 分 析 首 先 将 这 些 数据 表 成 一 个 单词 -文本 矩阵 


T11 T12 Zin 
T21 T2 ` Lan 

X= (17.12) 
Tml Tm2 ` Lmn 


这 是 一 个 m x n HERE, 元素 zij 表示 单词 wi 在 文本 dj 中 出 现 的 频数 或 权 值 。 
2. 截断 奇异 值 分 解 
潜在 语义 分 析 根 据 确定 的 话题 个 数 k 对 单词 -文本 矩阵 X 进行 截断 奇异 值 分 解 
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o 0 0 0 vf 
T 
X UU E = [u ue + u] a O 8 “a (17.13) 
0 0 0 
0 0 0 œ vk 


tik <n<m, Uk Æ mx k HER, 它 的 列 由 X 的 前 大 个 互相 正 交 的 左 奇异 向 量 组 
成 , Dp Ek 阶 对 角 方 阵 ， 对 角 元 素 为 前 个 最 大 奇异 值 , Vi 是 mx 大 HE, 它 的 列 
由 X 的 前 个 互相 正 交 的 右 奇异 向 量 组 成 。 

3. 话题 向 量 空间 

在 单词 -文本 矩阵 X 的 截断 奇异 值 分 解 式 (17.13) 中 , 矩阵 Ui 的 每 一 个 列 向 量 
,uk 表示 一 个 话题 , 称 为 话题 向 量 。 由 这 个 话题 向 量 张 成 一 个 子 空间 


«ty 


U1, U2,* 
Ux = [ ug Uz 
称 为 话题 向 量 空间 。 


4. 文本 的 话题 空间 表示 
有 了 话题 向 量 空 间 , 接着 考虑 文本 在 话题 空间 的 表示 。 将 式 (17.13) 写作 


T 
X=| a T2 - ty | = 不 区 人 
i vil V21 Uni 
02 0 V12 V22 Un2 
二 | Ur U2 Uk 
0 Be 
Ok Vik V2k *** Unk 
Cl1V11 O01V21 Cl1Vn1l 
02012 02022 O2Un2 
= [ Uy Ug -°: ur | ; : ; (17.14) 
OkVIk OkV2k ” OkUnk 
其 中 
Ul 
u = bad, 2k 


Umi 
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1 式 (17.14) 知 , HERE X 的 第 7 列 向 量 zj 满足 


£j © Ur (LV); 


Cl1V71 
020j2 
= [ Uy U2 Uk | $ 
OkUjk 
k 
=Ñ owu, j=1,2,,n (17.15) 
1=1 


式 中 (DVT); 是 矩阵 (DVT) 的 第 7 列 向 量 。 式 (17.15) 是 文本 d 的 近似 表达 式 , 由 
k 个 话题 向 量 wu 的 线性 组 合 构 成 。 矩阵 (DVT) 的 每 一 个 列 向 量 


01011 01021 GO1Vn1 
O02V12 02V22 F2Un2 
; sees 
OKVIK OKV2K TkUnk 


是 一 个 文本 在 话题 向 量 空间 的 表示 。 
综 上 , 可 以 通过 对 单词 -文本 矩阵 的 奇异 值 分 解 进行 潜在 语义 分 析 


X SURDEVE = Ur (DV ) (17.16) 


得 到 话题 空间 Uk 以 及 文本 在 话题 空间 的 表示 (DVD)。 


17.2.2 例子 


下 面 介绍 潜在 语义 分 析 的 一 个 例子 呈 。 假设 有 9 个 文本 , 11 个 单词 ,单词 -文本 矩 
MX 为 11 x 9 SME, 矩阵 的 元 素 是 单词 在 文本 中 出 现 的 频数 , 表示 如 下 : 


© http://www.puffinwarellc.com/index.php/news-and-articles/articles/33-latent-semantic-anal- 
ysis-tutorial.html?showall=1 
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Index Words Kites 
Tl T2 T3 T4 T5 T6 T7 T8 T9 
book 1 1 
dads 1 1 
dummies 1 1 
estate i 1 
guide 1 1 
investing 1 1 1 1 1 1 1 1 1 
market 1 1 
real 1 1 
rich 2 1 
stock 1 1 1 
value 1 1 


进行 潜在 语义 分 析 。 实施 对 矩阵 的 截断 奇异 值 分 解 , 假设 话题 的 个 数 是 3, 矩阵 的 
截断 奇异 值 分 解 结果 为 


Dummies|0.13 


Estate EREN 
at oss| 022| 0.34] 0.26[ 0.22 0.49|0.25| 02910.44] 
=0.15]=0.46]—024|—0.14| 0.55[0.07]—0.31]0.a4] 

00] oar] 014]-06| 0-25] 02220-511055] _0-00f0:34] 


可 以 看 出 , ZHE Us 有 3 个 列 向 量 ( 左 奇异 向 量 )。 第 1 列 向 量 ww 的 值 均 为 正 
第 2 列 向 量 wa 和 第 3 列 向 量 us 的 值 有 正 有 人 负 。 中间 的 对 角 和 矩阵 Dy 的 元 素 是 3 个 
大 到 小 的 奇异 值 ( 正 值 )。 右 矩阵 是 Vz", FORE V 也 有 3 个 列 向 量 ( 右 奇异 


a E 


量 )。 第 1 列 向 量 w 的 值 也 都 为 正 , 第 2 列 向 量 v 和 第 3 列 向 量 vs 的 值 有 正 有 负 。 
现在 , 将 Dy 与 VI 相 乘 , 整体 变 成 两 个 矩阵 乘积 的 形式 
X ~ Us(DaVs ) 


| 0.15 —0.27 0.04 

0.24 0.38 -0.09 

0.13 —0.17 0.07 

0.18 0.19 0.45 

023100 ee 137 0.86 1.33 1.02 0.86 192 1.09 1.13 1.72 

=| 0.74 -0.21 0.21 | | -0.84 -0.39 -120 -0.63 -037 1.44 0.18 -0.81 1.15 
0.18 —0.30 —0.28 | | -0.82 0.28 -0.32 0.50 0.44 -1.02 1.10 0.00 0.68 
0.18 0.19 0.45 
0.36 0.59 —0.34 
0.25 0.42 —0.28 

| 0.12 -0.14 0.23 
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JERE Us 有 3 个 列 向 量 , 表示 3 个 话题 , 矩阵 Us 表示 话题 向 量 空 间 。 矩阵 (DV) 
有 9 个 列 向 量 , 表示 9 个 文本 , 矩阵 (LVF) 是 文本 集合 在 话题 向 量 空间 的 表示 。 


17.3， 非 负 和 矩阵 分 解 算法 


非 负 矩阵 分 解 也 可 以 用 于 话题 分 析 。 对 单词 -文本 算 阵 进行 非 负 矩阵 分 解 ,将 其 
左 矩 阵 作为 话题 向 量 空间 , 将 其 右 矩 阵 作为 文本 在 话题 向 量 空间 的 表示 。 注意 通常 单 
词 -文本 矩阵 是 非 负 的 。 


17.3.1 非 负 和 矩阵 分 解 


若 一 个 矩阵 的 所 有 元 素 非 负 ， 则 称 该 矩阵 为 非 负 和 拖 阵 , 车 X 是 非 负 矩 阵 ， 则 记 作 
X S0 
给 定 一 个 非 负 矩阵 X > 0, 找到 两 个 非 负 和 矩阵 W > 0 Al H > 0, 使 得 


Xx WH (17.17) 


即将 非 负 和 矩阵 X 分 解 为 两 个 非 负 和 矩阵 三 和 五 的 乘积 的 形式 , 称 为 非 负 矩阵 分 解 。 

为 WH 与 XX 完全 相等 很 难 实现 , 所 以 只 要 求 WH 与 X 近似 相等 。 
假设 非 负 和 矩阵 是 m x n FAME, JEEE W MH 分 别 为 m x k EER kxn 

JERE. 假设 hk < min(m,n), BW A H bP REE X, 所 以 非 负 矩 阵 分 解 是 对 原 数据 

的 压缩 。 

BFN (17.17) 知 , HERE X 的 第 7 列 向 量 zj 满足 


zj = Wh; 
hij 
ha; 
cil ie we say 
hkj 
k 
=) mw, f=1,2,-+,n (17.18) 
l=1 


其 中 hy 是 矩阵 H 的 第 了 列 , wi 是 矩阵 W 的 第 1 列 , hy 是 Ay 的 第 ! 个 元 素 ，! = 
1; De yhs 
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式 (17.18) 表示 , 矩阵 XX 的 第 7 列 zj 可 以 由 矩阵 W 的 个 列 wi 的 线性 组 合 逼 
近 , 线性 组 合 的 系数 是 矩阵 H 的 第 j 列 hj 的 元 素 。 这 里 矩阵 W 的 列 向 量 为 一 组 基 ， 
矩阵 H 的 列 向 量 为 线性 组 合 系数 。 称 W WEER, HW RBC. AES ERE AES 
在 用 较 少 的 基 向 量 、 系 数 向 量 来 表示 较 大 的 数据 矩阵 。 


17.3.2 ”潜在 语义 分 析 模 型 


给 定 一 个 m x n 非 负 的 单词 -文本 矩阵 X > 0。 假 设 文 本 集合 共 包 含 k 个 话题 ， 
对 X 进行 非 负 和 矩阵 分 解 。 即 求 非 负 的 m x k SBE W > 0 ALK x n SME > 0, 使 得 


XxWH (17.19) 


令 W= [wr wa =- wel 为 话题 向 量 空 间 , wi,w2,… ,wk 表示 文本 集合 的 个 
话题 , &H= [hy ho … ha] 为 文本 在 话题 向 量 空间 的 表示 , hi, h2,… , hn 表示 
文本 集合 的 个 文本 。 这 就 是 基于 非 负 和 矩阵 分 解 的 潜在 语义 分 析 模 型 。 

非 负 和 矩阵 分 解 具有 很 直观 的 解释 ,话题 向 量 和 文本 向 量 都 非 负 ， 对 应 着 “ 伪 概率 
分 布 ”, 向 量 的 线性 组 合 表 示 局 部 合 加 构成 整体 。 


17.3.3 FER REREAD RRANTZ tH 


非 负 和 矩阵 分 解 可 以 形式 化 为 最 优化 问题 求解 。 首 先 定义 损失 函数 或 代价 函数 。 

第 一 种 损失 函数 是 平方 损失 。 设 两 个 非 负 和 矩阵 A = [oij]jmxn 和 B= [bjlmxn， F 
方 损失 函数 定义 为 

A = BI? = > (aig — 845)? (17.20) 
ij 

其 下 界 是 0， 当 且 仅 当 4 = B 时 达到 下 界 。 

另 一 种 损失 函数 是 散 度 (divergence) 。 设 两 个 非 负 矩阵 A = [aijjmxn A B= 
[bij]jmxn， 散 度 损 失 函 数 定义 为 


Qij 
D(A||B) = D (ai; log == 一 Qij 十 bis) (17.21) 
ij 


ij 
其 下 界 也 是 0， 当 且 仅 当 4 = B 时 达到 下 界 。 A 和 B 不 对 称 。 当 》)aij = Y by=1 


时 散 度 损失 函数 退化 为 Kullback-Leiber UERN, 这 时 A 和 是 概率 分 布 。 
接着 定义 以 下 的 最 优化 问题 。 
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目标 函数 |X —WH||? XFW AH 的 最 小 化 ,满足 约束 条 件 W, 五 > 0, B 
min |X - WHI? (17.22) 


s.t. W,H>0 


或 者 , 目标 函数 D(X||WH) XFW Fl A 的 最 小 化 , WEARZE W, 瑟 > 0, B 
min D(X||WH) (17.23) 


st. W,H 20 


17.3.4 算法 


考虑 求解 最 优化 问题 (17.22) 和 问题 (17.23)。 由 于 目标 函数 |X 一 WA||? 和 
D(X||WH) 只 是 对 变量 W 和 五 之 一 的 凸 函 数 , 而 不 是 同时 对 两 个 变量 的 凸 函 数 , 因 
此 找到 全 局 最 优 (最 小 值 ) 比较 困难 , 可 以 通过 数值 最 优化 方法 求 局 部 最 优 ( 极 小 值 )。 
梯度 下 降 法 比较 容易 实现 , 但 是 收敛 速度 慢 。 共 力 梯 度 法 收敛 速度 快 ， 但 实现 比较 复 
7%. Lee 和 Seung 提出 了 新 的 基于 “乘法 更 新 规则 ”的 优化 算法 , AeA WA H 
进行 更 新 , 其 理论 依据 是 下 面 的 定理 。 

定理 17.1 平方 损失 |X -WHI 对 下 列 乘法 更 新 规则 

T 
Ay += Hu 


a Wy (XE a 
Ma WW 


(17.24) 
(17.25) 
是 非 增 的 。 当 且 仅 当 W 和 互 是 平方 损失 函数 的 稳定 点 时 函数 的 更 新 不 变 。 
定理 17.2 散 度 损失 D(X —WH) 对 下 列 来 法 更 新 规则 
D WaXis/(WH)a] 
Hi — Ay— Tm (17.26) 
2 IHyXa/(WH)] 


Wa = Wart (17.27) 


As 
了 


是 非 增 的 。 当 且 仅 当 W 和 万 是 散 度 损失 函数 的 稳定 点 时 函数 的 更 新 不 变 。 
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定理 17.1 和 定理 17.2 给 出 了 乘法 更 新 规则 。 定理 的 证 明 可 以 参阅 文献 [4]. 

现 叙 述 非 负 和 矩阵 分 解 的 算法 。 只 介绍 第 一 个 问题 (17.22) 的 算法 , 第 二 个 问题 
(17.23) 的 算法 类 似 。 

最 优化 目标 函数 是 上 XX 一 WHIl?, 为 了 方便 将 目标 函数 乘 以 1/2, 其 最 优 解 与 原 问 
题 相同 , 记 作 


TW H) = 5X - WHI? = 5 Xs (WH 


应 用 梯度 下 降 法 求解 。 首 先 求 目标 函数 的 梯度 


ƏJ(W, H) 


Wa > [Xi; — (WH) ig] Ay 
= [XH )a— (WHH”)a] (17.28) 
同样 可 得 5 
— = -[(WT X); — (WTW H)u;] (17.29) 


然后 求 得 梯度 下 降 法 的 更 新 规则 , 由 式 (17.28) 和 式 (17.29) 有 


Wa = Wa + Aul(XH7)a — (WHHT™)] (17.30) 


Hij = Ay + pay [(W7X)y — (WTW H)u] (17.31) 


AHP 和 Ai, jy; 是 步 长 。 选 取 


Wi 网 四 Hij 
Àu = (WHH)n’ Mj = (WTWH)i; (17.32) 
即 得 乘法 更 新 规则 
T 
Wa = Warr y tmiem 1=1,2,---,k (17.33) 
T 4 
Hy = Hump =1,2 hk; j=1,2, nN (17.34) 


选取 初始 矩阵 W 和 五 为 非 负 和 矩阵 , 可 以 保证 迭代 过 程 及 结果 的 抢 阵 W 和 五 均 
为 非 负 。 

下 面 叙述 基于 乘法 更 新 规则 的 矩阵 非 负 分 解 迭 代 算 法 。 算 法 交替 对 酌 M H ik 
AR, 每 次 迭代 对 W 的 列 向 量 归 一 化 , 使 基 向 量 为 单位 向 量 。 
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算法 17.1 (FERED HAAR ES) 
输入 : 单词 -文本 矩阵 X > 0, 文本 集合 的 话题 个 数 k， RAKERA t; 
输出 : 话题 矩阵 W, 文本 表示 矩阵 H. 
(1) 初始 化 
W >0, 并 对 W 的 每 一 列 数 据 归 一 化 ; 
H>0; 
(2) EAR 
对 迭代 次 数 由 1 到 + 执行 下 列 步骤 : 
(a) 更 新 W 的 元 素 , 对 1 从 1 到 k, i 从 1 到 m 按 式 (17.33) 更 新 Wis 
Cb) 更 新 H 的 元 素 , 对 1 从 1 Bk, j 从 1 到 nn 按 式 (17.34) 更 新 Hijo 


本 章 概 要 


1. 单词 向 量 空间 模型 通过 单词 的 向 量 表示 文本 的 语义 内 容 。 以 单词 -文本 矩阵 OX 
为 输入 , 其 中 每 一 行 对 应 一 个 单词 , 每 一 列 对 应 一 个 文本 , 每 一 个 元 素 表示 单词 在 文 
本 中 的 频数 或 权 值 (如 TF-IDF)。 


T11 T12 Zin 

T21 T2 … Tn 
X= 

Tml Tm2 ` Imn 


qa 


单词 向 量 空间 模型 认为 ,这 个 矩阵 的 每 一 列 向 量 是 单词 向 量 , 表示 一 个 文本 ,两 个 单 
词 向 量 的 内 积 或 标准 化 内 积 表示 文本 之 间 的 语义 相似 度 。 

2. 话题 向 量 空间 模型 通过 话题 的 向 量 表示 文本 的 语义 内 容 。 假 设 有 话题 -文本 
和 矩阵 


Vl Y2 ` Yin 
Y= ig paa a i 
Yki Yk2 `` Ykn 


其 中 每 一 行 对 应 一 个 话题 , 每 一 列 对 应 一 个 文本 , 每 一 个 元 素 表示 话题 在 文本 中 的 权 
值 。 话题 向 量 空间 模型 认为 , 这 个 矩阵 的 每 一 列 向 量 是 话题 向 量 , 表示 一 个 文本 , 两 个 
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话题 向 量 的 内 积 或 标准 化 内 积 表示 文本 之 间 的 语义 相似 度 。 假 设 有 单词 -话题 矩阵 了 


tmi tm2 >> tmk 


其 中 每 一 行 对 应 一 个 单词 ， 每 一 列 对 应 一 个 话题 ， 每 一 个 元 素 表示 单词 在 话题 中 的 
权 值 。 


给 定 一 个 单词 -文本 矩阵 X 


TZ11 12 Tin 

T21 T22 ` Lan 
X= 

Tml Tm2 ‘`’ Tmn 


潜在 语义 分 析 的 目标 是 ， 找 到 合适 的 单词 -话题 矩阵 了 与 话题 -文本 矩阵 Y, 将 单词 - 文 
本 矩阵 X 近 似 的 表示 为 了 与 Y 的 乘积 形式 。 


XTY 
等 价 地 , 潜在 语义 分 析 将 文本 在 单词 向 量 空间 的 表示 X 通过 线性 变换 T 转换 为 话题 
向 量 空间 中 的 表示 工 。 
潜在 语义 分 析 的 关键 是 对 单词 -文本 矩阵 进行 以 上 的 矩阵 因子 分 解 〈 话 题 分 析 )。 


3. 潜在 语义 分 析 的 算法 是 奇异 值 分 解 。 通 过 对 单词 -文本 矩阵 进行 截断 奇异 值 分 
fe, 得 到 
X = UkEk VE = Ukl EVE) 


矩阵 Uy, 表示 话题 空间 , 矩阵 (DVT) 是 文本 在 话题 空间 的 表示 。 


4. 非 负 矩阵 分 解 也 可 以 用 于 话题 分 析 。 非 负 和 矩阵 分 解 将 非 负 的 单词 -文本 和 矩阵 近 
似 分 解 成 两 个 非 负 和 矩阵 W 和 五 的 乘积 , 得 到 


X=WH 


矩阵 W 表示 话题 空间 , 矩阵 H 是 文本 在 话题 空间 的 表示 。 
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非 负 和 矩阵 分 解 可 以 表 为 以 下 的 最 优化 问题 : 
miplX—-wHI 
st. W,H>0 


AE HEB aD MF SE ETE RIE. 乘法 更 新 规则 的 迭代 算法 , 交替 地 对 W 和 五 
进行 更 新 。 本 质 是 梯度 下 降 法 , 通过 定义 特殊 的 步 长 和 非 负 的 初始 值 , 保证 迭代 过 程 
及 结果 的 矩阵 W MH BAAR 


继续 阅读 


文献 [1] 为 潜在 语义 分 析 的 原始 论文 , 相关 的 介绍 还 有 文献 [2], 主要 是 关于 基于 
和 矩阵 奇异 值 分 解 的 潜在 语义 分 析 。 基 于 非 负 和 矩阵 分 解 的 潜在 语义 分 析 可 以 参照 文献 
[3 ~ 四。 还 有 基于 稀疏 矩阵 分 解 的 方法 回 。 后 两 种 方法 可 以 通过 并 行 计算 实现 ,大 大 
提高 计算 效率 。 


习 题 


17.1 试 将 图 17.1 的 例子 进行 潜在 语义 分 析 , 并 对 结果 进行 观察 。 

17.2 给 出 损失 函数 是 散 度 损失 时 的 非 负 和 矩阵 分 解 ( 潜 在 语义 分 析 ) 的 算法 。 
17.3 ”给 出 潜在 语义 分 析 的 两 种 算法 的 计算 复杂 度 , 包括 奇异 值 分 解法 和 非 负 算 
17.4” 列 出 潜在 语义 分 析 与 主 成 分 分 析 的 异同 。 
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第 18 章 ”概率 潜在 语义 分 析 


概率 潜在 语义 分 析 (probabilistic latent semantic analysis, PLSA)， 也 称 概率 潜 
在 语义 索引 (probabilistic latent semantic indexing, PLSI) ， 是 一 种 利用 概率 生成 模 
型 对 文本 集合 进行 话题 分 析 的 无 监督 学 习 方法 。 模 型 的 最 大 特点 是 用 隐 变 量 表 示 话 
题 ; 整个 模型 表示 文本 生成 话题 ,话题 生成 单词 ， 从 而 得 到 单词 -文本 共 现 数据 的 过 程 ; 
假设 每 个 文本 由 一 个 话题 分 布 决定 , 每 个 话题 由 一 个 单词 分 布 决定 。 

概率 潜在 语义 分 析 受 潜在 语义 分 析 的 启发 ,1999 年 由 Hofmann 提出 , 前 者 基于 
概率 模型 ， 后 者 基于 非 概率 模型 。 概 率 潜在 语义 分 析 最 初 用 于 文本 数据 挖掘 ， 后 来 扩 
展 到 其 他 领域 。 

首先 在 18.1 节令 述 概率 潜在 语义 分 析 的 模型 , 包括 生成 模型 和 共 现 模型 。 然 后 在 
18.2 节 介 绍 概率 潜在 语义 分 析 模 型 的 学 习 策略 和 算法 。 


18.1 概率 潜在 语义 分 析 模 型 


首先 叙述 概率 潜在 语义 分 析 的 直观 解释 。 概 率 潜 在 语义 分 析 模 型 有 生成 模型 ， 以 
及 等 价 的 共 现 模型 。 先 介绍 生成 模型 ， 然 后 介绍 共 现 模型 ， 最 后 讲解 模型 的 性 质 。 


18.1.1 基本 想法 


给 定 一 个 文本 集合 , 每 个 文本 讨论 若干 个 话题 , 每 个 话题 由 若干 个 单词 表示 。 对 
文本 集合 进行 概率 潜在 语义 分 析 , 就 能 够 发 现 每 个 文本 的 话题 , 以 及 每 个 话题 的 单词 。 
话题 是 不 能 从 数据 中 直接 观察 到 的 , 是 潜在 的 。 

文本 集合 转换 为 文本 -单词 共 现 数据 ,具体 表 现 为 单词 -文本 和 矩阵， 图 18.1 给 出 一 
个 单词 -文本 和 矩阵 的 例子 ( 详 见 文 前 彩 图 )。 每 一 行 对 应 一 个 单词 , 每 一 列 对 应 一 个 文 
A, 每 一 个 元 素 表示 单词 在 文本 中 出 现 的 次 数 。 一 个 话题 表示 一 个 语义 内 容 。 文 本 数 
据 基 于 如 下 的 概率 模型 产生 ( 共 现 模型 ): 首先 有 话题 的 概率 分 布 , 然后 有 话题 给 定 条 
件 下 文本 的 条 件 概率 分 布 ， 以 及 话题 给 定 条 件 下 单词 的 条 件 概率 分 布 。 概 率 潜在 语义 
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分 析 就 是 发 现 由 隐 变 量 表示 的 话题 , 即 潜 在 语义 。 直观 上 , 语义 相近 的 单词 语义 相 
近 的 文本 会 被 聚 到 相同 的 “ 软 的 类 别 ” 中， 而 话题 所 表示 的 就 是 这 样 的 软 的 类 别 。 假 
BA 3 个 潜在 的 话题 ,图 中 红 、 绿 、 蓝 框 各 自 表示 一 个 话题 。 


doc 1 doc 2 doc 3 doc 4 
word 1 2 2 
word 2 2 1 
word 3 1 1 
word 4 0 1 
图 18.1 ”概率 潜在 语义 分 析 的 直观 解释 ( 见 彩 图 ) 


18.1.2 ”生成 模型 


假设 有 单词 集合 W = {wi,w2,… ,wm}， 其 中 M 是 单词 个 数 ; 文本 (指标 ) R 
ED = {di,d2,… ,dNn}, 其 中 入 是 文本 个 数 ; 话题 集合 Z = {z1, 22,… ,zkK}, 其 中 
K 是 预先 设 定 的 话题 个 数 。 随 机 变量 w 取 值 于 单词 集合 ; 随机 变量 d 取 值 于 文本 集 
合 , 随机 变量 z 取 值 于 话题 集合 。 概 率 分 布 P(d)、 条 件 概率 分 布 P(z|d)、 条 件 概率 分 
布 P(w) 皆 属 于 多 项 分 布 , 其 中 P(d) 表示 生成 文本 d 的 概率 ，P(z|d) 表示 文本 d Æ 
成 话题 2 的 概率 ，P(uw|z) 表示 话题 2 生成 单词 w 的 概率 。 

每 个 文本 d 拥有 自己 的 话题 概率 分 布 P(z|d), 每 个 话题 z 拥有 自己 的 单词 概率 分 
布 P(w|z); 也 就 是 说 一 个 文本 的 内 容 由 其 相关 话题 决定 , 一 个 话题 的 内 容 由 其 相关 单 

生成 模型 通过 以 下 步骤 生成 文本 -单词 共 现 数据 : 

(1) 依据 概率 分 布 P(d)， 从 文本 (指标 ) 集合 中 随机 选取 一 个 文本 d, 共生 成 N 
个 文本 ; 针对 每 个 文本 , 执行 以 下 操作 ; 

(2) 在 文本 d 给 定 条 件 下 , 依据 条 件 概率 分 布 P(z|d)， 从 话题 集合 随机 选取 一 个 
话题 z, 共生 成 DL 个 话题 , 这 里 二 是 文本 长 度 ; 

(3) 在 话题 > 给 定 条 件 下 , 依据 条 件 概率 分 布 P(w|z)， 从 单词 集合 中 随机 选取 一 
个 单词 w。 


注意 这 里 为 叙述 方便 , 假设 文本 都 是 等 长 的 , 现实 中 不 需要 这 个 假设 。 
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生成 模型 中 , 单词 变量 w 与 文本 变量 d 是 观测 变量 , 话题 变量 z 是 隐 变 量 。 也 就 
是 说 模型 生成 的 是 单词 -话题 -文本 三 元 组 (w, >, d) 的 集合 , 但 观测 到 的 是 单词 -文本 二 
元 组 (w,d) 的 集合 , 观测 数据 表示 为 单词 -文本 矩阵 了 的 形式 , 矩阵 了 的 行 表示 单词 ， 
列表 示 文 本 , 元 素 表示 单词 -文本 对 (w, d) 的 出 现 次 数 。 

从 数据 的 生成 过 程 可 以 推出 , 文本 -单词 共 现 数据 T 的 生成 概率 为 所 有 单词 -文本 
对 (w,d) 的 生成 概率 的 乘积 ， 


P(T)= [J Piw, ar (18.1) 
(wd) 
这 里 n(w,d) 表示 (wd) 的 出 现 次 数 ， 单 词 -文本 对 出 现 的 总 次 数 是 N x 工 。 每 个 单 
词 -文本 对 (w, d) 的 生成 概率 由 以 下 公式 决定 : 


P(w,d) = P(d)P(w|d) 
= P(d) > P(w, 2\d) 


= P(d) 》 P(zld)P(wlz) (18.2) 


式 (18.2) 即 生成 模型 的 定义 。 
生成 模型 假设 在 话题 2 给 定 条 件 下 , 单词 w 与 文本 d 条 件 独立 ， 即 
P (w, z\d) = P (z|d) P(w|z) (18.3) 


生成 模型 属于 概率 有 向 图 模型 ,可 以 用 有 向 图 (directed graph) 表示 ,如 图 18.2 
所 示 。 图 中 实心 圆 表示 观测 变量 , 空心 贺 表 示 隐 变量 , 箭头 表示 概率 依存 关系 , 方 框 表 
示 多 次 重复 , 方 框 内 数字 表示 重复 次 数 。 文 本 变量 d 是 一 个 观测 变量 , 话题 变量 z 是 
一 个 隐 变 量 , 单词 变量 w 是 一 个 观测 变量 。 


N 


图 18.2 ”概率 潜在 语义 分 析 的 生成 模型 


18.1.3” 共 现 模 型 


可 以 定义 与 以 上 的 生成 模型 等 价 的 共 现 模型 。 
文本 -单词 共 现 数据 了 的 生成 概率 为 所 有 单词 -文本 对 (w, d) 的 生成 概率 的 乘积 : 
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P(T) = [J Pw, ja (18.4) 
(w,d) 


每 个 单词 -文本 对 (w,d) 的 概率 由 以 下 公式 决定 : 


P(w,d) = 》 P(z)P(w|z)P(d|z) (18.5) 
ZE 了 
IÈ (18.5) 即 共 现 模型 的 定义 。 容 易 验 证 , 生成 模型 (18.2) 和 共 现 模型 (18.5) 是 等 价 的 。 
共 现 模型 假设 在 话题 z 给 定 条 件 下 , 单词 w 与 文本 d 是 条 件 独立 的 , 即 


P(w,d|z) = P(w|z)P(d|z) (18.6) 


图 18.3 所 示 是 共 现 模型 。 图 中 文本 变量 d 是 一 个 观测 变量 , 单词 变量 w 是 一 个 
观测 变量 , 话题 变量 z 是 一 个 隐 变 量 。 图 18.1 是 共 现 模型 的 直观 解释 。 


@ Q) 
Ə ıı 


N 


图 18.3 ”概率 潜在 语义 模型 的 共 现 模型 


虽然 生成 模型 与 共 现 模型 在 概率 公式 意义 上 是 等 价 的 , 但 是 拥有 不 同 的 性 质 。 
生成 模型 刻画 文本 -单词 共 现 数据 生成 的 过 程 ， 共 现 模型 描述 文本 -单词 共 现 数据 拥 
有 的 模式 。 生 成 模型 式 (18.2) 中 单词 变量 w 与 文本 变量 d 是 非 对 称 的, 而 共 现 模型 
式 (18.5) 中 单词 变量 w 与 文本 变量 d 是 对 称 的 ; 所 以 前 者 也 称 为 非 对 称 模型 , 后 者 也 
称 为 对 称 模型 。 由 于 两 个 模型 的 形式 不 同 , 其 学 习 算 法 的 形式 也 不 同 。 


pei 


18.1.4 ”模型 性 质 


1. 模型 参数 

如 果 直 接 定 义 单词 与 文本 的 共 现 概 率 P(w, d) 模型 参数 的 个 数 是 OM 。N), 其 
中 M 是 单词 数 ，N 是 文本 数 。 概率 潜在 语义 分 析 的 生成 模型 和 共 现 模型 的 参数 个 数 
是 O(M。K 十 N。K), 其 中 是 话题 数 ,。 现实 中 KK <M, 所 以 概率 潜在 语义 分 析 
通过 话题 对 数据 进行 了 更 简洁 地 表示 , 减少 了 学 习 过 程 中 过 拟 合 的 可 能 性 。 图 18.4 显 
示 模 型 中 文本 、 话 题 、 单 词 之 间 的 关系 。 
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P(z|d)  P(wlz) 


图 18.4 ”概率 潜在 语义 分 析 中 文本 、 话 题 、 单 词 之 间 的 关系 


2. 模型 的 几何 解释 
下 面 给 出 生成 模型 的 几何 解释 。 概 率 分 布 P(w|d) 表 示 文 本 d 生成 单词 w 的 概率 ， 


M 
> P(wild) =1, 0<Plwild) sl i=1,---,M 
i=1 


可 以 由 M 维 空间 的 (M - 1) 单纯 形 (simplex) 中 的 点 表示 。 图 18.5 为 三 维 空间 
的 情况 。 单纯 形 上 的 每 个 点 表示 一 个 分 布 P(wld) (分 布 的 参数 向 量 )， 所 有 的 分 布 
P(wld)( 分 布 的 参数 向 量 ) 都 在 单纯 形 上 , 称 这 个 (M 一 1) 单纯 形 为 单词 单纯 形 。 


wd 


图 18.5 ”单词 单纯 形 与 话题 单纯 形 


从 式 (18.2) 可 知 , 概率 潜在 分 析 模 型 (生成 模型 ) 中 的 文本 概率 分 布 P(wld) 有 下 
面 的 关系 成 立 : 
P(wld) = 》 P(z|d)P(w|z) (18.7) 
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这 里 概率 分 布 P(w) 表示 话题 z 生成 单词 w 的 概率 。 

概率 分 布 P(w) 也 存在 于 M 维 空间 中 的 (M 一 1) 单纯 形 之 中 。 WRA K 个 话 
题 , 那么 就 有 KK 个 概率 分 布 P(wlzk), k= 1,2,---,K, 由 (M 一 1) 单纯 形 上 的 及 个 
点 表示 (参照 图 18.5)。 以 这 K 个 点 为 顶点 , 构成 一 个 (K 一 1) 单纯 形 , 称 为 话题 单纯 
形 。 话题 单纯 形 是 单词 单纯 形 的 子 单纯 形 。 参阅 图 18.5。 


从 式 (18.7) 知 ， 生 成 模型 中 文本 的 分 布 P(wld) 可 以 由 个 话题 的 分 布 
P(wlzk)， k = 1, , K, 的 线性 组 合 表示 , 文本 对 应 的 点 就 在 KK 个 话题 的 点 构 
成 的 (K 一 1) 话题 单纯 形 中 。 这 就 是 生成 模型 的 几何 解释 。 注 意 通 常 K KM, 概率 
潜在 语义 模型 存在 于 一 个 相对 很 小 的 参数 空间 中 。 图 18.5 中 显示 的 是 M = 3, K =3 
时 的 情况 。 当 天 = 2 时 话题 单纯 形 是 一 个 线段 , 当 KK = 1 时 话题 单纯 形 是 一 个 点 。 

3. 与 潜在 语义 分 析 的 关系 

概率 潜在 语义 分 析 模 型 ( 共 现 模型 ) 可 以 在 潜在 语义 分 析 模 型 的 框架 下 描述 。 
图 18.6 显示 潜在 语义 分 析 ,， 对 单词 -文本 矩阵 进行 奇异 值 分 解 得 到 入 = UDVT, 其 中 
U 和 VV 为 正 交 矩阵 , D 为 非 负 降 序 对 角 和 矩阵 (参照 第 17 章 )。 


a 
r 

= |U | KxK KxN 
MxN MxK 


图 18.6 ”概率 潜在 语义 分 析 与 潜在 语义 分 析 的 关系 


共 现 模型 (18.5) 也 可 以 表示 为 三 个 矩阵 乘积 的 形式 。 这样, 概率 潜在 语义 分 析 与 
潜在 语义 分 析 的 对 应 关系 可 以 从 中 看 得 很 清楚 。 下 面 是 共 现 模型 的 矩阵 乘积 形式 : 


N= YL 

X' = [P(w d)]yxwy 

U' = [Pwl2)| x (48:8) 
Y= [P@lkxk 


V’ = [P(lz) vx 


概率 潜在 语义 分 析 模 型 (18.8) 中 的 矩阵 U’ AV! 是 非 负 的 、 规范化 的 , 表示 条 件 
概率 分 布 ， 而 潜在 语义 分 析 模 型 中 的 矩阵 U 和 V 是 正 交 的 , 未 必 非 负 , 并 不 表示 概率 
分 布 。 
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18.2 ”概率 潜在 语义 分 析 的 算法 


概率 潜在 语义 分 析 模 型 是 含有 隐 变 量 的 模型 ， 其 学 习 通常 使 用 EM 算法 。 本 节 介 
绍 生成 模型 学 习 的 EM 算法 。 


EM 算法 是 一 种 迭代 算法 , 每 次 迭代 包括 交替 的 两 步 : BO, 求 期 望 ; M 步 , 求 极 
Keo E 步 是 计算 Q 函数 ， 即 完全 数据 的 对 数 似 然 函 数 对 不 完全 数据 的 条 件 分 布 的 期 
望 。M 步 是 对 Q 函数 极 大 化 , 更 新 模型 参数 。 详 细 介 绍 见 第 9 章 。 下面 叙述 生成 模型 
的 EM 算法 。 


设 单词 集合 为 W = {wi,w2,… ,wm}， 文本 集合 为 D = {qi,d2,… ,dN}, if 
题 集合 为 2 = {z1,z2,… ,zkK}。 给 定单 词 -文本 共 现 数据 T = {n(wi,d;)},i = 
1,2,---,M, j 二 1,2,… N, 目标 是 估计 概率 潜在 语义 分 析 模 型 (生成 模型 ) 的 
参数 。 如果 使 用 极 大 似 然 估计 ,对 数 似 然 函数 是 


M 
Me: 


IL 
= 
©. 
I 
~ 


n(wi, dj) log P(wi, dj) 


nN 
Us 


Il 
a 
S. 
Il 
~ 


K 
n(wi, dj) log [Zr wi\zk)P(zk|d; )] 
k=1 
但 是 模型 含有 隐 变 量 , 对 数 似 然 函数 的 优化 无 法 用 解析 方法 求解 , 这 时 使 用 EM 算法。 
应 用 EM 算法 的 核心 是 定义 Q 函数 。 
卫 步 : 计算 Q 函数 


Q 函数 为 完全 数据 的 对 数 似 然 函 数 对 不 完全 数据 的 条 件 分 布 的 期 望 。 针 对 概率 潜 
在 语义 分 析 的 生成 模型 ，@Q 函数 是 


z z n(wi, dj) 

Yond) [log PCa; + ay EPP (zeld;)] p Plerlwi dy) 
18.9) 
式 中 n(d;) = > n(wi, dj) 表示 文本 d; 中 的 单词 个 数 ， n(w;,d;) 表示 单词 wi 在 文本 
di 中 出 纲 的 次 数 。 条 件 概率 分 布 已 (zx|wi, dj) 代表 不 完全 数据 ,是 已 知 变量 。 条 件 概 
率 分 布 P(wi|zk) 和 P(zx|d;) 的 乘积 代表 完全 数据 ,是 未 知 变量 。 

1 于 可 以 从 数据 中 直接 统计 得 出 Pd) 的 估计 ,这 里 只 考虑 P(wi|zx),P(zx|dj) 
的 估计 , 可 将 Q 函数 简化 为 函数 Q 
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M N K 
= OYE n(wi, dj) 》 P(ze|wi, dj) log[P(wilzn) P(zeld5)] (18.10) 
i=1 j=1 k=1 
Q! 函数 中 的 P(zk]wi, dj) 可 以 根据 贝 叶 斯 公式 计算 
P(zx|wi; dj) -ule le (18.11) 
D> Plwilzk)P(zxld;) 
其 中 P(zq|d;) 和 P(wi|zk) 由 上 一 步 迭 代 得 到 。 


M 步 : 极 大 化 Q 函数 。 


通过 约束 


变量 P(w;|zx)， 


Hn 


应 


A 


最 优化 求解 Q 函数 的 极 大 值 , 这 时 已 (zx|dj) 和 P(wi|zn) 是 变量 。 


P(zk|d;) 形成 概率 分 布 , 满足 约束 条 件 


Yo Pluses) =1, k=1,2,---,K 


K 
SS Pleeldy) =1, §=1,2,---,N 


和 拉 格 明日 法 ,引入 拉 格 明日 乘 子 六 和 pj 定义 拉 格 朗 日 函数 4 


K M N K 
=Q' + md Pilz) + Dp;(1— 0 Pledi) 
k=1 i=1 j=l k=1 


因为 


将 拉 格 朗 日 函数 4 分 别 对 P(wi|zn) 和 P(zeld;) 求 偏 导数 , 并 令 其 等 于 0, 得 到 下 面 


的 方程 组 


n(wi, dj 


M 
D n(wi, dj 


i=1 


解 方程 组 得 到 


z 


M 
》 Yo n(wm, dj)P(zrlwm, dj) 


m=1 j=1 


j)P(zklwi, dj) — TeP(wilze) =0, i=1,2,--,M; k=1,2,---,K 
j)P(zkļwi, dj) — pj P(zeldj)=0, f=1,2,---,N; k=1,2,.…,K 
M 步 的 参数 估计 公式 : 
N 
> n(wi, dj) P (zx|wi, dj) 
P(wilzx) 一 (18.12) 
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> n(wi, dj) P(zx|wi, dj) 


P(z\d;) = = WG) (18.13) 


总 结 有 下 面 的 算法 : 

算法 18.1 (概率 潜在 语义 模型 参数 估计 的 EM 算法 ) 

HA: 设 单词 集合 为 W = {wi,w2,… ,wm}, 文本 集合 为 D = {di, d2,… ,dn}> 
话题 集合 为 2 = {2z1, 32,… ,zkK}， 共 现 数据 {n(wi,dj;)} ,i = 1,2,…,M,j = 1, 
2 ,Ni 

输出 : P(wilzk) 和 P(zk|dj)。 

D 设置 参数 P(wi|zk) 和 P(ze\d;) 的 初始 值 。 

(2) TERT OE EG, M 步 , 直到 收敛 为 止 。 


Es: 
P(z|wi, dj) = Pia Penida) 


$ Plwilze)P(zeld;) 
k=1 


M 步 : 


n(wi, dj)P(zkļwi, dj) 


Me 


1 


Dj nlwm di)P(ar hom, dj) 


j=1 


P(wi|z%) = 


= IMs, 


> n(wi, dj) P(zx|wi; dj) 


Pali = = —— u 


本 章 概 要 


1. 概率 潜在 语义 分 析 是 利用 概率 生成 模型 对 文本 集合 进行 话题 分 析 的 方法 。 概 率 
潜在 语义 分 析 受 潜在 语义 分 析 的 启发 提出 ,两 者 可 以 通过 矩阵 分 解 关 联 起 来 。 

给 定 一 个 文本 集合 , 通过 概率 潜在 语义 分 析 , 可 以 得 到 各 个 文本 生成 话题 的 条 件 
概率 分 布 ， 以 及 各 个 话题 生成 单词 的 条 件 概率 分 布 。 

概率 潜在 语义 分 析 的 模型 有 生成 模型 ， 以 及 等 价 的 共 现 模型 。 其 学 习 策略 是 观测 
数据 的 极 大 似 然 估计 ,其 学 习 算法 是 EM 算法 。 


348 第 18 章 ”概率 潜在 语义 分 析 


2. 生成 模型 表示 文本 生成 话题 , 话题 生成 单词 , 从 而 得 到 单词 -文本 共 现 数 据 的 过 
程 ; 假设 每 个 文本 由 一 个 话题 分 布 决定 ， 每 个 话题 由 一 个 单词 分 布 决 定 。 单 词 变量 w 
与 文本 变量 d 是 观测 变量 话题 变量 z 是 隐 变 量 。 生 成 模型 的 定义 如 下 : 


PC = [J Piw, ar 
(w,d) 


Plw,d) = P(d)P(w|d) = P(d) Y` P(z|d)P(wlz) 


3. 共 现 模型 描述 文本 单词 共 现 数据 拥有 的 模式 。 共 现 模型 的 定义 如 下 : 


P(T)= [[ Piw, ar 
(w,d) 


P(w,d) = DP(z) P(w|z)P(d|z) 


ZE 了 


4. 概率 潜在 语义 分 析 的 模型 的 参数 个 数 是 O(M . K+N-K). WKF K <M, 
所 以 概率 潜在 语义 分 析 通 过 话题 对 数据 进行 了 更 简洁 地 表示 , 实现 了 数据 压缩 。 

5， 模 型 中 的 概率 分 布 P(wld) 可 以 由 参数 空间 中 的 单纯 形 表示 。M HES 
数 空间 中 ,单词 单纯 形 表示 所 有 可 能 的 文本 的 分 布 , 在 其 中 的 话题 单纯 形 表示 在 K 个 
话题 定义 下 的 所 有 可 能 的 文本 的 分 布 。 话 题 单纯 形 是 单词 单纯 形 的 子 集 , 表示 潜在 语义 
空间 。 

6. 概率 潜在 语义 分 析 的 学 习 通 常 采用 EM 算法 。 通 过 人 迭代 学 习 模 型 的 参数 ，P(w|2) 
和 P(z|d), 而 P(d) 可 直接 统计 得 出 。 


概率 潜在 语义 分 析 的 原始 文献 有 [1-3]。 在 文献 [4] 中 , 作者 讨论 了 概率 潜在 语义 
分 析 与 非 负 和 矩阵 分 解 的 关系 。 


习题 


18.1 证 明生 成 模型 与 共 现 模 型 是 等 价 的 。 
18.2 ”推导 共 现 模型 的 EM 算法 。 
18.3 对 以 下 文本 数据 集 进 行 概率 潜在 语义 分 析 。 
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第 19 章 ”马尔 可 夫 链 蒙特 卡 罗 法 


蒙特 卡 罗 法 (Monte Carlo method) , 也 称 为 统计 模拟 方法 (statistical simulation 
method) ， 是 通过 从 概率 模型 的 随机 抽样 进行 近似 数值 计算 的 方法 。 马 尔 可 夫 链 
蒙特 卡 罗 法 (Markov Chain Monte Carlo, MCMC) ， 则 是 以 马尔 可 夫 链 (Markov 
chain) 为 概率 模型 的 蒙特 卡 罗 法 。 马尔 可 夫 链 蒙特 卡 罗 法 构建 一 个 马尔 可 夫 链 , 使 其 
平稳 分 布 就 是 要 进行 抽样 的 分 布 , 首先 基于 该 马尔 可 夫 链 进行 随机 游 走 , 产生 样本 的 
序列 , 之 后 使 用 该 平稳 分 布 的 样本 进行 近似 数值 计算 。 

Metropolis-Hastings 算法 是 最 基本 的 马尔 可 夫 链 蒙特 卡 罗 法 ，Metropolis 等 人 在 
1953 年 提出 原始 的 算法 ，Hastings 在 1970 年 对 之 加 以 推广 , 形成 了 现在 的 形式 。 吉 
布 斯 抽样 (Gibbs sampling) 是 更 简单 、 使 用 更 广泛 的 马尔 可 夫 链 蒙特 卡 罗 法 ，1984 
年 由 5S. Geman fil D. Geman 提出 。 
马尔 可 夫 链 蒙特 卡 罗 法 被 应 用 于 概率 分 布 的 估计 、 定 积分 的 近似 计算 、 最 优化 问 
题 的 近似 求解 等 问题 , 特别 是 被 应 用 于 统计 学 习 中 概率 模型 的 学 习 与 推理 ,是 重要 的 
统计 学 习 计 算 方法 。 

本 章 首 先 在 19.1 节 介绍 一 般 的 蒙特 卡 罗 法 , 在 19.2 节 介绍 马尔 可 夫 链 ， 然 后 
在 19.3 节 叙 述 马尔 可 夫 链 蒙特 卡 罗 的 一 般 方法 ,最 后 在 19.4 节 和 19.5 节 分 别 讲述 
Metropolis-Hastings 算法 和 吉 布 斯 抽样 。 


19.1 蒙特 卡 罗 法 


本 节 介 绍 一 般 的 蒙特 卡 罗 法 在 随机 抽样 、 数 学 期 望 估计 、 定 积分 计算 的 应 用 。 马 
尔 可 夫 链 蒙特 卡 罗 法 是 蒙特 卡 罗 法 的 一 种 方法 。 


19.1.1 随机 抽样 


统计 学 和 机 器 学 习 的 目的 是 基于 数据 对 概率 分 布 的 特征 进行 推断 ,蒙特 卡 罗 法 要 
解决 的 问题 是 , 假设 概率 分 布 的 定义 已 知 , 通过 抽样 获得 概率 分 布 的 随机 样本 ， 并 通 
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过 得 到 的 随机 样本 对 概率 分 布 的 特征 进行 分 析 。 比 如 ， 从 样本 得 到 经 验 分 布 ， 从 而 估 
计 总 体 分 布 ; 或 者 从 样本 计算 出 样本 均值 ， 从 而 估计 总 体 期 望 。 所 以 蒙特 卡 罗 法 的 核 
心 是 随机 抽样 (random sampling) 。 

- 般 的 蒙特 卡 罗 法 有 直接 抽样 法 、 接 受 - 拒 绝 抽样 法 、 重 要 性 抽样 法 等 。 接 受 -拒绝 
抽样 法 、 重 要 性 抽样 法 适合 于 概率 密度 函数 复杂 (如 密度 函数 含有 多 个 变量 , 各 变量 
相互 不 独立 , 密度 函数 形式 复杂 ), 不 能 直接 抽样 的 情况 。 

这 里 介绍 接受 -拒绝 抽样 法 (accept-reject sampling method) . 假设 有 随机 变量 
x, 取 值 ze ,其 概率 密度 函数 为 ple) 目标 是 得 到 该 概率 分 布 的 随机 样本 ,以 对 这 
个 概率 分 布 进行 分 析 。 

接受 -拒绝 法 的 基本 想法 如 下 。 假设 p(x) 不 可 以 直接 抽样 。 找 一 个 可 以 直接 抽样 
的 分 布 ， 称 为 建议 分 布 (proposal distribution) 。 假 设 q(x) 是 建议 分 布 的 概率 密度 函 
数 , 并 且 有 q(x) 的 c 倍 一 定 大 于 等 于 p(z)， 其 中 c > 0, 如 图 19.1 所 示 ( 详 见 文 前 彩 


图 )。 按照 qtz) 进行 抽样 ,假设 得 到 结果 是 ,再 按照 PO 的 比例 随机 决定 是 于 接 


受 z*。 直观 上 , 落 到 p(z*) 范围 内 的 就 接受 (绿色 ), 落 到 p(xz*) 范围 外 的 就 拒绝 ( 红 
色 )。 接受 -拒绝 法 实际 是 按照 p(z) 的 涵盖 面积 (或 涵盖 体积 ) 占 cala) 的 涵盖 面积 (或 
涵盖 体积 ) 的 比例 进行 抽样 。 


limh 


q(x) 


拒绝 


图 19.1 ”接受 -拒绝 抽样 法 ( 见 彩 图 ) 


接受 -拒绝 法 的 具体 算法 如 下 。 

算法 19.1 (接受 -拒绝 法 ) 

输入 : 抽样 的 目标 概率 分 布 的 概率 密度 函数 p(z); 

输出 : 概率 分 布 的 随机 样本 x1 z2,…… ;zn。 

BH. 样本 数 n 

O 选择 概率 密度 函数 为 g(z) 的 概率 分 布 ， 作 为 建议 分 布 ,使 其 对 任 一 z 满足 
cq(x) > p(x), 其 中 c> 0。 

(2) 按照 建议 分 布 f(z) 随机 抽样 得 到 样本 z*， 再 按照 均匀 分 布 在 (0,1) 范围 内 抽 
样 得 到 a。 

(3) mus POD, guys z* 作为 抽样 结果 ; ZEN, 回 到 步 又 (2)。 


cq(x*) 
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(4) 直至 得 到 mn 个 随机 样本 , 结束 。 m 

接受 -拒绝 法 的 优点 是 容易 实现 , 缺点 是 效率 可 能 不 高 。 如 果 p(z) 的 涵盖 体积 占 
cq(z) 的 涵盖 体积 的 比例 很 低 , 就 会 导致 拒绝 的 比例 很 高 , 抽样 效率 很 低 。 注意 , 一般 
是 在 高 维 空间 进行 抽样 , 即使 p(z) 与 cg(z) 很 接近 , 两 者 涵盖 体积 的 差异 也 可 能 很 
大 (与 我 们 在 三 维 空间 的 直观 不 同 )。 


19.1.2 ”数学 期 望 估计 


一 般 的 蒙特 卡 罗 法 , 如 直接 抽样 法 、 接 受 - 拒 绝 抽 样 法 、 重 要 性 抽样 法 , 也 可 以 用 
于 数学 期 望 估 计 (estimation of mathematical expectation)。 假 设 有 随机 变量 x, W 
值 ze 区 ,其 概率 密度 函数 为 p(z)， f(x) 为 定义 在 X 上 的 函数 , 目标 是 求 函数 f(x) 
关于 密度 函数 p(z) 的 数学 期 望 Ey(z)[f(z)]。 
针对 这 个 问题 , 蒙特 卡 罗 法 按照 概率 分 布 z(z) 独立 地 抽取 nn 个 样本 zz1, 22,… ,Zn， 
比如 用 以 上 的 抽样 方法 , 之 后 计算 函数 f(z) 的 样本 均值 fn 


n 


a 1 
hi) (19.1) 


作为 数学 期 望 cs)[f(z)] 的 近似 值 。 
根据 大 数 定律 可 知 ， 当 样本 容量 增 大 时 ， 样 本 均值 以 概率 1 收敛 于 数学 期 望 


Ía > Epo lf (E), 一 oo (19.2) 


这 样 就 得 到 了 数学 期 望 的 近似 计算 方法 : 


Bolfo x Y Sa) (19.3) 


19.1.3 ROHS 


一 般 的 蒙特 卡 罗 法 也 可 以 用 于 定 积分 的 近似 计算 ， 称 为 蒙特 卡 罗 积 分 (Monte 
Carlo integration) 。 假 设 有 一 个 函数 h(z), 目标 是 计算 该 函数 的 积分 


[nwa 


如 果 能 够 将 函数 h(x) 分 解 成 一 个 函数 f(z) 和 一 个 概率 密度 函数 p(z) 的 乘积 的 
形式 , 那么 就 有 
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[ r@ae= f tapad = Eye Lr) (19.4) 
x x 


于 是 函数 h(x) 的 积分 可 以 表示 为 函数 f(z) 关于 概率 密度 函数 p(z) 的 数学 期 望 。 实 
际 上 , 给 定 一 个 概率 密度 函数 p(z), RER f(z) = cat 就 可 得 式 (19.4)。 就 是 说 ， 
任何 一 个 函数 的 积分 都 可 以 表示 为 某 一 个 函数 的 数学 期 望 的 形式 。 而 函数 的 数学 期 户 
又 可 以 通过 函数 的 样本 均值 估计 。 于 是 ,就 可 以 利用 样本 均值 来 近似 计算 积分 。 这 就 
是 蒙特 卡 罗 积分 的 基本 想法 。 


1 n 
[rae = Fyn tO) LL) (19.5) 


1 
例 19.1 FASEB BUNIR | e- /dr 
0 
解 令 f(x) = e72 
p(z)=1 (0<z<1) 
也 就 是 说 , 假设 随机 变量 z 在 (0,1) 区 间 遵循 均匀 分 布 。 


使 用 蒙特 卡 罗 积 分 法 , 如 图 19.2 所 示 , 在 (0,1) 区 间 按 照 均匀 分 布 抽取 10 个 随机 
样本 z1, za … ,zi0。 计算 样本 的 函数 均值 fio 


10 
2 i 
各 = 二 ae = 0.832 


也 就 是 积分 的 近似 。 随机 样本 数 越 大 , 计算 就 越 精确 。 m 
10 个 样本 
1.0F 0.832 
0.8 上 


00 02 04 06 08 10 
图 19.2 ”蒙特 卡 罗 积 分 例 


© 例 19.1~ 例 19.2 KA Jarad Niemi. 
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2 


例 19.2 用 蒙特 卡 罗 积分 法 求 f reo (+) di 
解 4 f(x)=2 


p(w) 是 标准 正 态 分 布 的 密度 函数 。 
使 用 蒙特 卡 罗 积 分 法 ,按照 标准 正 态 分 布 在 区 间 (一 00, 00) 抽样 ri zz，… ,zn， 
取 其 平均 值 ， 就 得 到 要 求 的 积分 值 。 当 样本 增 大 时 ， 积 分 值 趋 于 0。 n 
本 章 介绍 的 马尔 科 夫 链 蒙特 卡 罗 法 也 适合 于 概率 密度 函数 复杂 , 不 能 直接 抽样 的 
情况 , 则 在 解决 一 般 的 蒙特 卡 罗 法 , 如 接受 -拒绝 抽样 法 、 重 要 性 抽样 法 ,抽样 效率 不 
高 的 问题 。 一 般 的 蒙特 卡 罗 法 中 的 抽样 样本 是 独立 的 , 而 马尔 可 夫 链 蒙特 卡 罗 法 中 的 
抽样 样本 不 是 独立 的 , 样本 序列 形成 马尔 科 夫 链 。 


19.2 马尔 可 夫 链 


本 节 首 先 给 出 马尔 可 夫 链 的 定义 , 之 后 介绍 马尔 可 夫 链 的 一 些 性 质 。 马尔 可 夫 链 
蒙特 卡 罗 法 用 到 这 些 性 质 。 


19.2.1 基本 定义 


定义 19.1 (马尔 可 夫 链 ) ”考虑 一 个 随机 变量 的 序列 X = {Xo XXX 
这 里 X, 表示 时 刻 t 的 随机 变量 , t = 0, 1,2,.…。 每 个 随机 变量 XX; (t= 二 0,1,2,… ) 的 
取 值 集合 相同 ， 称 为 状态 空间 ， 表 示 为 S. 随机 变量 可 以 是 离散 的 , 也 可 以 是 连续 的 。 
以 上 随机 变量 的 序列 构成 随机 过 程 (stochastic process ) . 

假设 在 时 刻 0 的 随机 变量 Xo 遵循 概率 分 布 P(Xo) = 7ro， 称 为 初始 状态 
分 布 。 在 某 个 时 刻 t > 1 的 随机 变量 Xi 与 前 一 个 时 刻 的 随机 变量 X ZA 
有 条 件 分 布 P(X4|Xi_1)， 如 果 X, 只 依赖 于 XX,_1， 而 不 依赖 于 过 去 的 随机 变量 
{Xo Xi1,… ,Xt_2}， 这 一 性 质 称 为 马尔 可 夫 性 ， 即 


P(Xi|Xo, Xi, ,Xt-1) = P(Xi|Xr-1), t= 1,2,--- (19.6) 
具有 马尔 可 夫 性 的 随机 序列 X = {Xo X ,Xi,…} 称 为 马尔 可 夫 链 (Markov 


chain ) ， 或 马尔 可 夫 过 程 (Markov process ) .条件 概率 分 布 P(Xi|XXi_1) 称 为 马尔 可 
夫 链 的 转移 概率 分 布 . 转移 概率 分 布 决定 了 马尔 可 夫 链 的 特性 。 
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马尔 可 夫 性 的 直观 解释 是 “未 来 只 依赖 于 现在 (假设 现在 已 知 ), 而 与 过 去 无 关 ”。 
这 个 假设 在 许多 应 用 中 是 合理 的 。 
若 转移 概率 分 布 P(Xi|Xt-_1) St HK, B 


P(Xe+s|Xt-14s) =P X) t=1,2s s =1,2,--- (19.7) 


则 称 该 马尔 可 夫 链 为 时 间 齐 次 的 马尔 可 夫 链 (time homogenous Markov chain) 。 本 
书 中 提 到 的 马尔 可 夫 链 都 是 时 间 齐 次 的 。 
以 上 定义 的 是 一 阶 马尔 可 夫 链 , 可 以 扩展 到 nn 阶 马尔 可 夫 链 , 满足 n 阶 马尔 可 夫 性 


P(Xi|XoX1:.: Xt-2Xt-1) = P(Xt|Xt-n  Xt-2Xt-1) (19.8) 


本 书 主要 考虑 一 阶 马尔 可 夫 链 。 容 易 验证 n 阶 马尔 可 夫 链 可 以 转换 为 一 阶 马尔 可 夫 链 。 


19.2.2 ”离散 状态 马尔 可 夫 链 


1. 转移 概率 矩阵 和 状态 分 布 

离散 状态 马尔 可 夫 链 XX = {Xo X ,Xt,…}， 随 机 变量 X(t = 0,1,2,…) 
定义 在 离散 空间 S, 转移 概率 分 布 可 以 由 矩阵 表示 。 

若 马尔 可 夫 链 在 时 刻 (t — 1) 处 于 状态 j, ENA t 移动 到 状态 i 将 转移 概率 记 作 


Dig = (Xe =i|Xt-1 el y (19.9) 


Pij È 9, 》 ij =1 
马尔 可 夫 链 的 转移 概率 pij 可 以 由 和 矩阵 表示 ,， 即 


Pil Pi2 P13 
P= P21 P22 P23 … (19.10) 
P31 P32 P33 


PA DIRT REEERE RREN P 满足 条 件 pi > 0, Y py = 1 满足 
这 两 个 条 件 的 矩阵 称 为 随机 矩阵 (stochastic matrix) 。 注 意 这 里 矩阵 列 元 素 之 和 为 1。 
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考虑 马尔 可 夫 链 和 X = {Xo X1,… , Xi,…} 在 时 刻 t (t = 0,1,2,---) 的 概率 分 


布 , 称 为 时 刻 t 的 状态 分 布 , 记 作 


m(t) 


a(t) = | m(t) (19.11) 
其 中 Ai(t) 表示 时 刻 t 状态 为 i 的 概率 P(X, = i), 
a(t) = P(X; = 1), i=] Bs 
特别 地 , 马尔 可 夫 链 的 初始 状态 分 布 可 以 表示 为 
7™(0) 
(19.12) 


其 中 xi(0) 表示 时 刻 0 状态 为 i 的 概率 P(Xo = 让 。 通 常 初始 分 布 r(0) 的 向 量具 


个 分 量 是 1, 其 余 分 量 都 是 0, 表示 马尔 可 夫 链 从 一 个 具体 状态 开始 。 


有 一 


有 限 离散 状态 的 马尔 可 夫 链 可 以 由 有 向 图 表示 。 结 点 表示 状态 ， 边 表示 状态 之 间 


的 转移 ， 边 上 的 数值 表示 转移 概率 。 从 一 个 初始 状态 出 发 ， 根据 有 向 边 上 定义 上 


的 概率 


在 状态 之 间 随 机 跳 转 〈 或 随机 转移 )， 就 可 以 产生 状态 的 序列 。 马 尔 可 夫 链 实际 上 是 刻 


画 随 时 间 在 状态 之 间 转 移 的 模型 ,假设 未 来 的 转移 状态 只 依赖 于 现在 的 状态 , I 
去 的 状态 无 关 。 


与 昨天 及 以 前 的 天 气 无 关 。 这 个 假设 经 验 上 是 合理 的 , 至 少 是 现实 情况 的 近似 。 


地 ,比如 ,如果 今天 是 晴天 , 那么 明天 是 晴天 的 概率 是 0.9, 是 雨天 的 概率 是 0.1; 


而 与 过 


下 面 通过 一 个 简单 的 例子 给 出 马尔 可 夫 链 的 直观 解释 。 假设 观 察 某 地 的 天 气 ,， E 
日 依次 是 “ 晴 , M, 晴 , 晴 , 晴 , Mo Mieco”, 具有 一 定 的 规律 。 马尔 可 夫 链 可 以 刻画 
这 个 过 程 。 假设 天 气 的 变化 具有 马尔 可 夫 性 , 即 明 天 的 天 气 只 依赖 于 今天 的 天 气 , 而 


具体 
如 果 


今天 是 雨天 , 那么 明天 是 晴天 的 概率 是 0.5, 是 雨天 的 概率 也 是 0.5。 图 19.3 表示 这 个 
马尔 可 夫 链 。 基 于 这 个 马尔 可 夫 链 ， 从 一 个 初始 状态 出 发 ， 随 时 间 在 状态 之 间 随 机 转 


B, 就 可 以 产生 天 气 的 序列 , 可 以 对 天 气 进行 预测 。 


下 面 看 一 个 马尔 可 夫 链 应 用 的 例子 。 自 然 语 言 处 理 、 语 音 处 理 中 经 常用 到 语言 模 


型 (language model) ， 是 建立 在 词 表 上 的 n 阶 马尔 可 夫 链 。 比 如 , 在 英语 语音 识别 


中 , 语音 模型 产生 出 两 个 候选 :“How to recognize speech” 与 “How to wreck a nice 
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© 


0.9 


© ii 
0.5 


图 19.3 ”马尔 可 夫 链 例 


beach”@, 要 判断 哪个 可 能 性 更 大 。 显 然 从 语义 的 角度 前 者 的 可 能 性 更 大 , 语言 模型 
可 以 帮助 做 出 这 个 判断 。 

将 一 个 语句 看 作 是 一 个 单词 的 序列 wiw- ws 目标 是 计算 其 概率 。 同 一 个 语句 
很 少 在 语 料 中 重复 多 次 出 现 , 所 以 直接 从 语 料 中 估计 每 个 语句 的 概率 是 困难 的 。 语言 
模型 用 局 部 的 单词 序列 的 概率 , 组 合计 算出 全 局 的 单词 序列 的 概率 ,可 以 很 好 地 解决 
这 个 问题 。 

假设 每 个 单词 只 依赖 于 其 前 面 出 现 的 单词 , 也 就 是 说 单词 序列 具有 马尔 可 夫 性 ， 
那么 可 以 定义 一 阶 马尔 可 夫 链 ， 即 语言 模型 , 如 下 计算 语句 的 概率 。 


P(wyw--- ws) 
= P(w1)P(we2|w1)P(ws3|wiwe) -- - P(wi|wiwe ---wi-1)--- P(ws|wiwe---ws—1) 


= P(w1)P(we|w1)P(ws|wa) «++ P(ws|wi-1) +++ P(ws|ws—a) 


这 里 第 三 个 等 式 基于 马尔 可 夫 链 假设 。 这 个 马尔 可 夫 链 中 ,状态 空间 为 词 表 , 一 个 位 
置 上 单词 的 产生 只 依赖 于 前 一 个 位 置 的 单词 , 而 不 依赖 于 更 前 面 的 单词 以 上 是 一 阶 
马尔 可 夫 链 , 一 般 可 以 扩展 到 n 阶 马尔 可 夫 链 。 

语言 模型 的 学 习 等 价 于 确定 马尔 可 夫 链 中 的 转移 概率 值 ， 如果 有 充分 的 语 料 ， 转 
移 概率 可 以 直接 从 语 料 中 估计 。 直 观 上 ,“wreck a nice” 出 现 之 后 , FAHI “beach” 
的 概率 极 低 , 所 以 第 二 个 语句 的 概率 应 该 更 小 ， 从 语言 模型 的 角度 看 第 一 个 语句 的 可 
能 性 更 大 。 

马尔 可 夫 链 X 在 时 刻 t 的 状态 分 布 , 可 以 由 在 时 刻 (t — 1) 的 状态 分 布 以 及 转移 
概率 分 布 决定 


a(t) = Px(t — 1) (19.13) 
这 是 因为 


O 这 两 句 英 文 的 发 音 相近 , 但 后 者 语义 不 可 解释 。 
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mi(t) = P(X; =i) 


SO P(X ilX:-1 = m)P(Xt_-1 = m) 
= >》 PimTm(t ii 1) 


马尔 可 夫 链 在 时 刻 t 的 状态 分 布 , 可 以 通过 递 推 得 到 。 事 实 上 , 由 式 (19.13) 


a(t) = Pa(t — 1) = P(Px(t — 2)) = Pr(t— 2) 


递 推 得 到 
z(t) = Ptr(0) (19.14) 


这 里 的 已 : 称 为 二 步 转移 概率 矩阵 ， 
Pi, = P(X% = i|Xo = j) 


表示 时 刻 0 从 状态 7 出 发 , INA t ARRE tt BR. Ph 也 是 随机 矩阵 。 式 
(19.14) 说 明 , 马尔 可 夫 链 的 状态 分 布 由 初始 分 布 和 转移 概率 分 布 决定 。 
对 图 19.3 中 的 马尔 可 夫 链 , 转移 矩阵 为 


0.9 0.5 
P= 
| 0.1 0.5 | 


如 果 第 一 天 是 晴天 的 话 , 其 天 气概 率 分 布 (初始 状态 分 布 ) 如 下 : 


根据 这 个 马尔 可 夫 链 模型 ,可 以 计算 第 二 天 、 第 三 天 及 之 后 的 天 气概 率 分 布 (状态 
分 布 )。 
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2. 平稳 分 布 
定义 19.2 (平稳 分 布 )” 设 有 马尔 可 夫 链 义 = {Xo Xi,… Xn e p 其 状态 空 
DA S, RRRA P = (pij)， 如 果 存 在 状态 空间 S 上 的 一 个 分 布 


Ti 


使 得 
a= Pr (19.15) 

则 称 克 为 马尔 可 夫 链 X = {Xo X ,Xi,…} 的 平稳 分 布 。 
HWE, 如 果 马 尔 可 夫 链 的 平稳 分 布 存 在 , 那么 以 该 平稳 分 布 作为 初始 分 布 , 面 
向 未 来 进行 随机 状态 转移 , 之 后 任何 一 个 时 刻 的 状态 分 布 都 是 该 平稳 分 布 。 

引 理 19.1 A-A RTA X = {Xo X ,Xi,…}， 状态 空间 为 S， 转 
移 概率 矩阵 为 P = (pij UAR n= (m1, T2) AX 的 平稳 分 布 的 充分 必要 条 件 
是 = (ml,72，…)” 是 下 列 方程 组 的 解 : 


zi= DPyri, 1=1,2,--- (19.16) 

zi>0, i=1,2,... (19.17) 
Djzi=1 (19.18) 
a 


证 明 必要 性 。 假 设 r = (m,r) 是 平稳 分 布 ， 显 然 满足 式 (19.17) 和 
式 (19.18)。 又 
Ti = 》 pgm}; = r a om 
第 


EI m = (m72,…)” 满 足 式 (19.16)。 
充分 性 。 由 式 (19.17) 和 式 (19.18) 知 r = (m72,…) ”是 一 概率 分 布 。 假设 
T= (rubT2 ”为 Xe 的 分 布 , 则 


P(X; =i) =m = pyn = pg P(X =), i=, 
J j 


n= (m, T2)? 也 为 Xi 的 分 布 。 事实 上 这 对 任意 t 成 立 。 MA T = (m, T2)" 
是 马尔 可 夫 链 的 平稳 分 布 。 
引 理 19.1 给 出 一 个 求 马尔 可 夫 链 平稳 分 布 的 方法 。 É 
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例 19.3 设 有 图 19.4 所 示 马 尔 可 夫 链 ,其 转移 概率 矩阵 为 


1/2 1/2 1/4 
P=/1/4 0 1/4 
1/4 1/2 1/2 


求 其 平稳 分 布 。 


图 19.4 ”马尔 可 夫 链 例 


解 ” 设 平稳 分 布 为 + = (21, 22,23)7, WH (19.16)~ 式 (19.18) 有 


1 1 1 
Ty 971 972 igs 

1 1 
T = ma T Fia 

1 1 1 
T3 ari 2972 373 


zı +zr2+z3=1 


aj20, i=1,2,3 
解 方程 组 ， 得 到 唯一 的 平稳 分 布 


z= (2/5 1/5 2/5)! 


119.4 RAR 19.5 所 示 马 尔 可 夫 链 , 其 转移 概率 分 布 如 下 , 求 其 平稳 分 布 。 


1 1/3 0 
0 1/3 0 
0 1/3 1 
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1/3 1/3 


图 19.5 ”马尔 可 夫 链 例 


解 这 个 马尔 可 夫 链 的 平稳 分 布 并 不 唯一 , +=(3/4 0 1/4)", r=(2/3 0 1/3)" 
等 皆 为 其 平稳 分 布 。 站 


马尔 可 夫 链 可 能 存在 唯一 平稳 分 布 , 无 穷 多 个 平稳 分 布 , 或 不 存在 平稳 分 布 。 


19.2.3 ”连续 状态 马尔 可 夫 链 


连续 状态 马尔 可 夫 链 XX = {Xo Xn , Xt,…}， 随机 变量 X(t = 0,1,2,---) E 
义 在 连续 状态 空间 S, 转移 概率 分 布 由 概率 转移 核 或 转移 核 (transition kernel) 表示 。 


BES 是 连续 状态 空间 , 对 任意 的 £ ES, 4 CS, BR P(x, A) 定义 为 


P(z,4) = p(x, y)dy (19.19) 


其 中 p(o, +) 是 概率 密度 函数 , 满足 p(z,* ) > 0, 已 (z,S) = | rudy = L 转移 
s 
核 P(z, A) 表示 从 xz ~ A 的 转移 概率 


P(X; = AIXi_1 = 2) = P(z,A) (19.20) 


有 时 也 将 概率 密度 函数 p(z,。) 称 为 转移 核 。 
若 马尔 可 夫 链 的 状态 空间 S 上 的 概率 分 布 r(z) 满足 条 件 


my) = i p(z,y)n(a)da, Yy ES (19.21) 
则 称 分 布 r(z) 为 该 马尔 可 夫 链 的 平稳 分 布 。 等 价 地 ， 


R= f P(z,A)n(z)dz, VACS (19.22) 


© 当 离 散 状态 马尔 可 夫 链 有 无 穷 个 状态 时 ， 有 可 能 没有 平稳 分 布 。 
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或 简写 为 
m= Pr (19.23) 


19.24 “马尔 可 夫 链 的 性 质 
以 下 介绍 离散 状态 马尔 可 夫 链 的 性 质 。 可 以 自然 推广 到 连续 状态 马尔 可 夫 链 。 
1. 不 可 约 


定义 19.3 (不 可 约 ) RABKRTAMN = {Xo XI1,… Xn p 状态 空间 为 
S, 对 于 任意 状态 i,j E S， 如 果 存 在 一 个 时 刻 t(t > 0) 满足 


P(X, =i|Xo =j) >0 (19.24) 


也 就 是 说 ， 时 刻 0 从 状态 j BR, A t 到 达 状 态 i 的 概率 大 于 0 ， 则 称 此 马尔 可 夫 
4E X 是 不 可 约 的 (irreducible ) ， 否 则 称 马尔 可 夫 链 是 可 约 的 (reducible ) 。 

直观 上 , 一 个 不 可 约 的 马尔 可 夫 链 ， 从 任意 状态 出 发 ， 当 经 过 充分 长 时 间 后 , 可 
以 到 达 任 意 状态 。 例 19.3 中 的 马尔 可 夫 链 是 不 可 约 的 , 例 19.5 中 的 马尔 可 夫 链 是 可 
约 的 。 

例 19.5 图 19.6 所 示 马 尔 可 夫 链 是 可 约 的 。 


1 1/2 


1/2 
图 19.6 ”马尔 可 夫 链 例 
解 ”转移 概率 矩阵 
0 1/2 0 
1 0 ü 
0 1/2 1 


平稳 分 布 zx= (0 0 1)”。 此 马尔 可 夫 链 , 转移 到 状态 3 后 , 就 在 该 状态 上 循环 跳 转 ， 


不 能 到 达 状 态 1 和 状态 2, 最 终 停留 在 状态 3。 E 
2. 非 周 期 


定义 19.4( 非 周期 ) RA DRTAMR NX = {Xo,X1,… ,Xi,…}， 状态 空间 
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为 S$， 对 于 任意 状态 iE S， 如 果 时 刻 0 从 状态 i 出 发 , t 时 刻 返回 状态 的 所 有 时 间 
长 {t: P(X, =i|Xo =i) > 0} 的 最 大 公约 数 是 1， 则 称 此 马尔 可 夫 链 X 是 非 周期 
的 (aperiodic ) ， 否 则 称 马 尔 可 夫 链 是 周期 的 (periodic ) 。 
直观 上 , 一 个 非 周期 性 的 马尔 可 夫 链 , 不 存在 一 个 状态 , 从 这 一 个 状态 出 发 , 再 返 
可 到 这 个 状态 时 所 经 历 的 时 间 长 呈 一 定 的 周期 性 。 例 19.3 中 的 马尔 可 夫 链 是 非 周期 
的 , 例 19.6 中 的 马尔 可 夫 链 是 周期 的 。 

例 19.6 图 19.7 所 示 的 马尔 可 夫 链 是 周期 的 。 


1 1 


1 
图 19.7 “马尔 可 夫 链 例 


0 0 1 
1 0 0 
0 1 0 


其 平稳 分 布 是 r = (1/3 1/3 1/3)”。 此 马尔 可 夫 链 从 每 个 状态 出 发 , 返回 该 状态 的 
时 刻 都 是 3 的 倍数 ，{3, 6,9}, 具有 周期 性 , 最 终 停留 在 每 个 状态 的 概率 都 为 1/3。 W 
定理 19.2 不 可 约 且 非 周期 的 有 限 状 态 马尔 可 夫 链 ， 有 唯一 平稳 分 布 存在 。 

3. 正常 返 

定义 19.5 GERI) 设 有 马尔 可 夫 链 义 = {Xo X ,Xt,…}， 状态 空间 为 
S， 对 于 任意 状态 i,j ES, 定义 概率 pi, 为 时 刻 0 从 状态 GT 出发， 时刻 t 首次 转移 
到 状态 i 的 概率 , BP pt, = P(X, =i Xs #6s=1,2,… ,t- 1X =f) t= 1,2, 
若 对 所 有 状态 ij 都 满足 jim pij > 0, MARR T AMX 是 正常 返 的 (positive 
recurrent ) 。 

直观 上 , 一 个 正常 返 的 马尔 可 夫 链 , 其 中 任意 一 个 状态 ,从 其 他 任意 一 个 状态 出 
发 ,当时 间 趋 于 无 穷 时 , 首次 转移 到 这 个 状态 的 概率 不 为 0。 例 19.7 中 的 马尔 可 夫 链 
根据 不 同 条 件 是 正常 返 的 或 不 是 正常 返 的 。 

例 19.7 图 19.8 所 示 无 限 状态 马尔 可 夫 链 , 当 p > q 时 是 正常 返 的 , 当 p < gq 不 
是 正常 返 的 。 
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9 9 q q 
P P P P 
p+q= 


图 19.8 ”马尔 可 夫 链 例 


解 ”转移 概率 矩阵 


一 
© "°S 

© © 
o 8 oc o 


当 p > g 时 , 平稳 分 布 是 


当时 间 趋 于 无 穷 时 , 转移 到 任何 一 个 状态 的 概率 不 为 0, 马尔 可 夫 链 是 正常 返 的 。 


当 p < q 时 , 不 存在 平稳 分 布 , 马尔 可 夫 链 不 是 正常 返 的 。 a 
定理 19.3 ”不 可 约 、 非 周期 且 正常 返 的 马尔 可 夫 链 ， 有 唯一 平稳 分 布 存在 。 

4. 遍历 定理 

下 面 叙述 马尔 可 夫 链 的 遍历 定理 。 

定理 19.4 (遍历 定理 ) ” 设 有 马尔 可 夫 链 X = {Xo, XX1,… Xn e p 状态 空间 


为 S， 若 马尔 可 夫 链 X 是 不 可 约 、 非 周期 且 正常 返 的 ， 则 该 马尔 a. 平稳 分 
布艺 = (ma;Ta;…:)T， 并 且 转 移 概率 的 极限 分 布 是 马尔 可 夫 链 的 平稳 分 布 


; j=1,2,--- (19.25) 


jim P(X ilXo i) Ti, i l; 2ye. 
若 f(X) 是 定义 在 状态 空间 上 的 函数 ， 媚 ,[|F(X)|] < eco, 则 
P{f > Er[f(X)]} =1 (19.26) 


这 里 


1 
f= 72 fles) 
s=1 
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Er[f(X)] = 》 Om 是 SX) 关于 平稳 分 布 T = (m,m) 的 数学 期 望 ， 式 


(19.26) 表示 
fi Ex[f(X)], t— 00 (19.27) 


几乎 处 处 成 立 或 以 概率 1 成 立 。 


遍历 定理 的 直观 解释 : 满足 相应 条 件 的 马尔 可 夫 链 ， 当 时间 趋 于 无 穷 时 , 马尔 可 
夫 链 的 状态 分 布 趋 近 于 平稳 分 布 , 随机 变量 的 函数 的 样本 均值 以 概率 1 收敛 于 该 函数 
的 数学 期 望 。 样本 均值 可 以 认为 是 时 间 均 值 , 而 数学 期 望 是 空间 均值 。 遍历 定理 实际 
表述 了 遍历 性 的 含义 : 当时 间 趋 于 无 穷 时 ,时 间 均 值 等 于 空间 均值 。 遍历 定理 的 三 个 
条 件 : 不 可 约 、 非 周期 、 正 常 返 , 保证 了 当时 间 趋 于 无 穷 时 达到 任意 一 个 状态 的 概率 
不 为 0。 

理论 上 并 不 知道 经 过 多 少 次 迭代 , 马尔 可 夫 链 的 状态 分 布 才 能 接近 于 平稳 分 布 ， 
在 实际 应 用 遍历 定理 时 , 取 一 个 足够 大 的 整数 m, 经 过 m 次 迭代 之 后 认为 状态 分 布 
就 是 平稳 分 布 , 这 时 计算 从 第 m 十 1 次 迭代 到 第 n 次 迭代 的 均值 ， 即 


Bf = È Fes) (19.28) 


称 为 遍历 均值 。 
5. 可 逆 马 尔 可 夫 链 


定义 19.6 (可 逆 马 尔 可 夫 链 ) ” 设 有 马尔 可 夫 链 X = {Xo Xi1,… ,Xt,…}， 状 
态 空间 为 S ,转移 概率 矩阵 为 P， 如 果 有 状态 分 布 二 (mi;T2,…':)T， 对 于 任意 状态 
ij E 5S， 对 任意 一 个 时 刻 t 满足 


P(X: = i|Xt-1 = jn; = P(Xe1 = Xt = i)m, 1,7 =1,2,--- (19.29) 


PjiTj = PijTi, iJ = 1 2, Kas (19.30) 
则 称 此 马尔 可 夫 链 X 为 可 逆 马 尔 可 夫 链 ( reversible Markov chain), A (19.30) 称 为 
细致 平衡 方程 (detailed balance equation ) 。 


观 上 ,如 果 有 可 逆 的 马尔 可 夫 链 , 那么 以 该 马尔 可 夫 链 的 平稳 分 布 作为 初始 
分 布 , 进行 随机 状态 转移 , 无 论 是 面向 未 来 还 是 面向 过 去 , 任何 一 个 时 刻 的 状态 分 布 
都 是 该 平稳 分 布 。 例 19.3 中 的 马尔 可 夫 链 是 可 逆 的 , 例 19.8 中 的 马尔 可 夫 链 是 不 可 
逆 的 。 


m 
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例 19.8 图 19.9 所 示 马 尔 可 夫 链 是 不 可 逆 的 。 


1/4 


图 19.9 ”马尔 可 夫 链 例 


解 ”转移 概率 矩阵 


1/4 1/2 1/4 
1/4 © 1/2 
1/2 1/2 1/4 
平稳 分 布 rx = (8/25 7/25 2/5)". 不 满足 细致 平稳 方程 。 E 


定理 19.5 (细致 平衡 方程 ) 满足 细致 平衡 方程 的 状态 分 布 T 就 是 该 马尔 可 夫 链 
的 平稳 分 布 。 即 


P2=6 


证 明 事实 上 


(Pr): >》 pig Y pam Tid Pii Ti, i=1,2, (19.31) 
j j j 


a 

定理 19.5 说 明 , 可 逆 马 尔 可 夫 链 一 定 有 唯一 平稳 分 布 ， 给 出 了 一 个 马尔 可 夫 链 有 

平稳 分 布 的 充分 条 件 (不 是 必要 条 件 )。 也 就 是 说 , 可逆 马 尔 可 夫 链 满足 遍历 定理 19.4 
的 条 件 。 


19.3 ”马尔 可 夫 链 蒙特 卡 罗 法 


19.3.1 基本 想法 


假设 目标 是 对 一 个 概率 分 布 进行 随机 抽样 , 或 者 是 求 函 数 关于 该 概率 分 布 的 数学 
月 望 。 可 以 采用 传统 的 蒙特 卡 罗 法 , 如 接受 -拒绝 法 、 重 要 性 抽样 法 , 也 可 以 使 用 马尔 
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可 夫 链 蒙特 卡 罗 法 。 马尔 可 夫 链 蒙特 卡 罗 法 更 适合 于 随机 变量 是 多 元 的 、 密度 函 数 是 
非 标 准 形式 的 、 随 机 变量 各 分 量 不 独立 等 情况 。 

假设 多 元 随机 变量 zx, 满足 ze 区， 其 概率 密度 函数 为 ple) f(a) 为 定义 在 
ZE 光 上 的 函数 ,目标 是 获得 概率 分 布 p(z) 的 样本 集合 ， 以 及 求 函数 f(z) 的 数学 期 
望 Bp(z)[f(z)]。 

应 用 马尔 可 夫 链 蒙特 卡 罗 法 解决 这 个 问题 。 基本 想法 是 : 在 随机 变量 z 的 状态 空 
间 S 上 定义 一 个 满足 遍历 定理 的 马尔 可 夫 链 X = {Xo X1,… Xo p 使 其 平稳 
分 布 就 是 抽样 的 目标 分 布 p(z)。 然 后 在 这 个 马尔 可 夫 链 上 进行 随机 游 走 ,每 个 时 刻 
得 到 一 个 样本 。 根据 遍历 定理 ， 当 时 间 趋 于 无 穷 时 , 样本 的 分 布 趋 近 平稳 分 布 , 样本 
的 函数 均值 趋 近 函数 的 数学 期 望 。 所 以 ,当时 间 足 够 长 时 (时刻 大 于 某 个 正 整 数 m)， 
在 之 后 的 时 间 (时 刻 小 于 等 于 某 个 正 整 数 n, n >m) 里 随机 游 走 得 到 的 样本 集合 
zmt1,Zm+2,… On} 就 是 目标 概率 分 布 的 抽样 结果 ,得 到 的 函数 均值 (遍历 均值 ) 
是 要 计算 的 数学 期 望 值 : 


一 一 


名 


z 1 us 
Y= TO (19.32) 


到 时 刻 m 为 止 的 时 间 段 称 为 燃烧 期 。 

如 何 构建 具体 的 马尔 可 夫 链 成 为 这 个 方法 的 关键 。 连 续 变 量 的 时 候 ， 需 要 定义 转 
移 核 函数 ; 离散 变量 的 时 候 ， 需 要 定义 转移 矩阵 。 一 个 方法 是 定义 特殊 的 转移 核 函数 
或 者 转移 矩阵 , 构建 可 道 马 尔 可 夫 链 ,这样 可 以 保证 遍历 定理 成 立 。 常 用 的 马尔 可 夫 
链 蒙 特 卡 罗 法 有 Metropolis-Hastings 算法 、 吉 布 斯 抽样 。 

于 这 个 马尔 可 夫 链 满足 遍历 定理 , 随机 游 走 的 起 始点 并 不 影响 得 到 的 结果 ， 即 
从 不 同 的 起 始点 出 发 , 都 会 收敛 到 同一 平稳 分 布 。 

马尔 可 夫 链 蒙特 卡 罗 法 的 收敛 性 的 判断 通常 是 经 验 性 的 ， 比如, 在 马尔 可 夫 链 上 
进行 随机 游 走 , 检验 遍历 均值 是 否 收 敛 。 具体 地 , 每 隔 一 段 时 间 取 一 次 样本 , 得 到 多 
个 样本 以 后 , 计算 遍历 均值 ， 当 计算 的 均值 稳定 后 , 认为 马尔 可 夫 链 已 经 收敛 。 再 比 
如 , 在 马尔 可 夫 链 上 并 行进 行 多 个 随机 游 走 ， 比 较 各 个 随机 游 走 的 遍历 均值 是 否 接近 
一 致 。 

马尔 可 夫 链 蒙特 卡 罗 法 中 得 到 的 样本 序列 , 相 邻 的 样本 点 是 相关 的 , 而 不 是 独立 
的 。 因此 , 在 需要 独立 样本 时 , 可 以 在 该 样本 序列 中 再 次 进行 随机 抽样 ,比如 每 隔 一 段 
时 间 取 一 次 样本 , 将 这 样 得 到 的 子 样本 集合 作为 独立 样本 集合 。 

马尔 可 夫 链 蒙特 卡 罗 法 比 接受 -拒绝 法 更 容易 实现 , 因为 只 需要 定义 马尔 可 夫 链 ， 
而 不 需要 定义 建议 分 布 。 一 般 来 说 马尔 可 夫 链 蒙特 卡 罗 法 比 接受 -拒绝 法 效率 更 高 , 没 
有 大 量 被 拒绝 的 样本 , 虽然 燃烧 期 的 样本 也 要 抛弃 。 
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19.3.2 BADR 


根据 上 面 的 讨论 , 可 以 将 马尔 可 夫 链 蒙特 卡 罗 法 概括 为 以 下 三 步 : 

(1) 首先 , 在 随机 变量 xz 的 状态 空间 S 上 构造 一 个 满足 遍历 定理 的 马尔 可 夫 链 ， 
使 其 平稳 分 布 为 目标 分 布 p(z); 

(2) 从 状态 空间 的 某 一 点 zo 出 发 , 用 构造 的 马尔 可 夫 链 进行 随机 游 走 , 产生 样本 
序列 T0, zl …… 2Zb » 


(3) 应 用 马尔 可 夫 链 的 遍历 定理 , 确定 正 整数 m 和 n，(m <n), 得 到 样本 集合 
{zm+t1 Tm+2，,"… Un} 求 得 函数 f(z) 的 均值 (遍历 均值 


D> fe) (19.33) 


n-m. 
i=m+1 


就 是 马尔 可 夫 链 蒙特 卡 罗 法 的 计算 公式 。 
这 里 有 儿 个 重要 问题 : 
CL) 如 何 定 义 马尔 可 夫 链 , 保证 马尔 可 夫 链 蒙特 卡 罗 法 的 条 件 成 立 。 
(2) 如 何 确定 收敛 步 数 m, 保证 样本 抽样 的 无 偏 性 。 
(3) 如 何 确定 迭代 步 数 n, 保证 遍历 均值 计算 的 精度 。 


19.3.3 “马尔 可 夫 链 蒙特 卡 罗 法 与 统计 学 习 


马尔 可 夫 链 蒙特 卡 罗 法 在 统计 学 习 , 特别 是 贝 叶 斯 学 习 中 , 起 着 重要 的 作用 。 E 
要 是 因为 马尔 可 夫 链 蒙特 卡 罗 法 可 以 用 在 概率 模型 的 学 习 和 推理 上 。 

假设 观测 数据 由 随机 变量 y E V 表示 , 模型 由 随机 变量 ze X 表示 ， 贝 叶 斯 学 习 
通过 贝 叶 斯 定理 计算 给 定数 据 条 件 下 模型 的 后 验 概率 ,， 并 选择 后 验 概率 最 大 的 模型 。 
后 验 概率 


p(x)p(y|a) 


p(zly) = (19.34) 


p(y|x")p(2" da’ 
x 


贝 叶 斯 学 习 中 经 常 需要 进行 三 种 积分 运算 : 归 范 化 (normalization) ~ WA 
化 (marginalization) 、 数 学 期 望 (expectation) 。 


后 验 概率 计算 中 需要 归 范 化 计算 : 


| pileoa (19.35) 
x 


370 第 19 章 马尔 可 夫 链 蒙特 卡 罗 法 


如 果 有 隐 变 量 > e Z, 后 验 概率 的 计算 需要 边缘 化 计算 : 
p(z|y) = | p(x, z\y)dz (19.36) 
Z 
如 果 有 一 个 函数 f(z), 可 以 计算 该 函数 的 关于 后 验 概率 分 布 的 数学 期 望 : 
Ep [f(z a= f, f(z)p(zly)dz (19.37) 


当 观测 数据 和 模型 都 很 复杂 的 时 候 ， 以 上 的 积分 计算 变 得 困难 。 马 尔 可 夫 链 蒙特 
卡 罗 法 为 这 些 计算 提供 了 一 个 通用 的 有 效 解决 方案 。 


19.4 ”Metropolis-Hastings 算法 


本 节 叙 述 Metropolis-Hastings 算法 , 是 马尔 可 夫 链 蒙特 卡 罗 法 的 代表 算法 。 


19.4.1 基本 原理 


1. 马尔 可 夫 链 
假设 要 抽样 的 概率 分 布 为 p(z)。Metropolis-Hastings 算法 采用 转移 核 为 p(z,z/) 
的 马尔 可 夫 链 : 
plz, 2") = q(x, 2’ )a(z, x") (19.38) 


HP g(x, x) 和 alz, x) 分 别称 为 建议 分 布 (proposal distribution) 和 接受 分 布 
(Cacceptance distribution) 。 

建议 分 布 qla, x) 是 男 一 个 马尔 可 夫 链 的 转移 核 , 并 且 qla, a) 是 不 可 约 的 , 即 其 
概率 值 恒 不 为 0, 同时 是 一 个 容易 抽样 的 分 布 。 接受 分 布 (a, z') 是 


n mn {1 Paea) 
a(x, x’) = fı, IEE \ (19.39) 


这 时 , 转移 核 plx, 2 ) 可 以 写成 


F 


p(z, 2") = p(2’) (19.40) 


> P(x')a(2', x) < p(x)q(a, 2’) 


a(x, 2"), p(2')q(x', x) > p(x)q(x, x’) 
q(x", x) 


p(z) 


转移 核 为 p(z,z) 的 马尔 可 夫 链 上 的 随机 游 走 以 以 下 方式 进行 。 如 果 在 时 刻 
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(t 一 1) 处 于 状态 z, 即 rii = a MERENDA qlr, x) 抽样 产生 一 个 候选 状态 x'， 
然后 按照 接受 分 布 a(z,z') 抽样 决定 是 否 接受 状态 xz'。 以 概率 alx, r) 接受 r, 决定 
时 刻 t 转移 到 状态 r, 而 以 概率 1 一 a(z, 2’) 拒绝 r, 决定 时 刻 t 仍 停留 在 状态 z。 具 
体 地 ,从 区 间 (0,1) 上 的 均匀 分 布 中 抽取 一 个 随机 数 u, 决定 时 刻 t 的 状态 。 


| vw’, u<a(z,z’) 
t= 


z, u>a(z,z’) 


可 以 证 明 , 转移 核 为 p(z,z') WY SARA REE BT OR RE (满足 遍历 定理 )， 
其 平稳 分 布 就 是 p(z)， 即 要 抽样 的 目标 分 布 。 也 就 是 说 这 是 马尔 可 夫 链 蒙特 卡 罗 法 的 
一 个 具体 实现 。 

定理 19.6 ”由 转移 核 (19.38)~(19.40) 构成 的 马尔 可 夫 链 是 可 逆 的 ， 即 


(z)p(z,z) = p(x')p(2', £) (19.41) 


HH p(x) 是 该 马尔 可 夫 链 的 平稳 分 布 。 
证 明 若 z= zx, 则 式 (19.41) 显然 成 立 。 
axa’, W 


n(e)p(2,2") = plaate, ) min {1, EDIE | 
Jala’, 2)} 
(x)q(x, 2") 


= p(x’ )q(x', x) min Be i} 
= p(2')p(z", x) 


3 


= min {p(x)q(2, 2), p(x 


IÑ (19.41) 成 立 。 
1 式 (19.41) 知 ， 


J rler(a,2'yae = f r(e"\p(e',2)da 
= v(a!) {ple nar 


= p(x’) 


k 


根据 平稳 分 布 的 定义 (19.21), p(x) 是 马尔 可 夫 链 的 平稳 分 布 。 C 
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2. 建议 分 布 
建议 分 布 g(z,z') 有 多 种 可 能 的 形式 , 这 里 介绍 两 种 常用 形式 。 
第 一 种 形式 , 假设 建议 分 布 是 对 称 的 , 即 对 任意 的 zx 和 z' 有 


q(x, x) = q(x’, x) (19.42) 


这 样 的 建议 分 布 称 为 Metropolis 选择 ,也 是 Metropolis-Hastings 算法 最 初 采 用 的 建 
议 分 布 。 这 时 , 接受 分 布 alx, x) 简化 为 


a(x, 2’) = min {1,2} (19.43) 


Metropolis 选择 的 一 个 特例 是 q(x, 2") 取 条 件 概率 分 布 p(xz'|z)， 定义 为 多 元 正 态 
分 布 ， 其 均值 是 z， 其 协 方差 矩阵 是 常数 矩阵 。 


Metropolis 选择 的 另 一 个 特例 是 令 q(x, x) = g(|z — 2 小 ,这 时 算法 称 为 随机 游 走 
Metropolis 算法 。 例 如 ， 


(a -a 


ale, 2’) x exp(- =) 


Metropolis 选择 的 特点 是 当 a! 与 z 接近 时 , qla, 0’) 的 概率 值 高 ， 否则 q(x, 2’) 的 
概率 值 低 。 状 态 转移 在 附近 点 的 可 能 性 更 大 。 


第 二 种 形式 称 为 独立 抽样 。 假 设 g(z,z') 与 当前 状态 x 无关, B ql, x) = qla’) 
建议 分 布 的 计算 按照 q(x) 独立 抽样 进行 。 此 时 , 接受 分 布 ale, x) 可 以 写成 


a(z, 2’) = min fı. 一 | (19.44) 


HP w(x!) = P(z)/a(z)，w(z) = p(a)/q(2)- 


独立 抽样 实现 简单 , 但 可 能 收敛 速度 慢 , 通常 选择 接近 目标 分 布 p(z) 的 分 布 作为 
EIS) q(x). 


pinta 


3. 满 条 件 分 布 


马尔 可 夫 链 蒙特 卡 罗 法 的 目标 分 布 通常 是 多 元 联合 概率 分 布 p(z) = p(x1, 22,… ， 
rr) 其 中 z = (21,22, ,Zk)7 为 天 维 随机 变量 。 如 果 条 件 概率 分 布 p(zrlz_r) 中 所 有 
k 个 变量 全 部 出 现 , 其 中 rr = {ri € I} vp = {ri ¢ I}, IC K = {1,2,-:- , kh, 
那么 称 这 种 条 件 概率 分 布 为 满 条 件 分 布 (full conditional distribution) 。 
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满 条 件 分 布 有 以 下 性 质 : 对 任意 的 z,z' E X 和 任意 的 TC K, 有 


p(x) 


p(xz|z~-1) = x p(x) (19.45) 


p(x) day 


而 且 , 对 任意 的 cc’ e X 和 任意 的 TC K, 有 


plz1lz’ r) _ pla’) 
p(xrlz-1) p(z) 


Metropolis-Hastings 算法 中 , 可 以 利用 性 质 (19.46), 简化 计算 , 提高 计算 效率 。 具 


体 地 ， 通 过 满 条 件 分 布 概率 的 比 PCED 计算 联合 概率 的 比 2 只 ,而 前 者 更 容易 
ite perle) pa) 
y Lo 


B) 19.9 设 zi 和 zs 的 联合 概率 分 布 的 密度 函数 为 


p(t, £2) X exp -je —1)?(22 — 1} 


(19.46) 


求 其 满 条 件 分 布 。 
解 ”由 满 条 件 分 布 的 定义 有 


D(Zilz2) x p(x1, £2) 
cc exp {50a -1)P (x2 一 1} 
œ N(1, (z2 —1)~?) 


这 里 N(1, (wo —1)~?) 是 均值 为 1, 方差 为 (zz —1)-? 的 正 态 分 布 , 这 时 zl 是 变量 , x 
是 参数 。 同样 可 得 


p(z2|£1) x p(T1, £2) 
«op {-3(22 - 1? - 1°} 


x N(1, (zı — 1)7°) E 


19.4.2 Metropolis-Hastings 算法 


算法 19.2 (Metropolis-Hastings 算法 ) 
输入 : 抽样 的 目标 分 布 的 密度 函数 p(z), 函数 f(x); 
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19. 


输出 : p(x) 的 随机 样本 z+1,Zm+2,… ,Zn ， 函 数 样 本 均值 fmn: 
BR: 收敛 步 数 m, EREK no 
(1) 任意 选择 一 个 初始 值 zo 
(2) 对 i= 1,2,… ,n 循环 执行 

(a) 设 状 态 ri- = r, RRENDA qalx, x) 随机 抽取 一 个 候选 状态 T'o 

(b) 计算 接受 概率 

za(z' T 
a(x,x’) = min fı, nei 
Co) 从 区 间 (0,1) 中 按 均匀 分 布 随机 抽取 一 个 数 wo 
#Huc<a(z,z’), 则 状态 z: = z'; BW, 状态 zi = ro 

(3) 得 到 样本 集合 {1m4 m42 En} 
计算 


4.3” 单 分 量 Metropolis-Hastings 算法 


在 Metropolis-Hastings 算法 中 , 通常 需要 对 多 元 变量 分 布 进行 抽样 ， 有 时 对 多 元 


变量 分 布 的 抽样 是 困难 的 。 可 以 对 多 元 变量 的 每 一 变量 的 条 件 分 布依 次 分 别 进行 抽 


样 ， 


从 而 实现 对 整个 多 元 变量 的 一 次 抽样 , 这 就 是 单 分 量 Metropolis-Hastings (single- 


component Metropolis-Hastings) 算法 。 


HH 


假设 马尔 可 夫 链 的 状态 由 大 维 随机 变量 表示 


© = (272) Ep)" 


P zj 表示 随机 变量 z 的 第 7 个 分 量 , j = 1,2,… ky 而 ce 表示 马尔 可 夫 链 在 时 


Al i 的 状态 


= 


其 中 


P a 是 随机 变量 oO 的 第 7 个 分 量 , j = 1,2,--- ,k。 
为 了 生成 容量 为 n 的 样本 集合 {2 r, a}, 单 分 量 Metropolis-Hastings 


算法 由 下 面 的 大 步 迭 代 实 现 Metropolis-Hastings 算法 的 一 次 迭代 。 


设 在 第 (i — 1) 次 迭代 结束 时 分 量 zj 的 取 值 为 E, ER i 次 迭代 的 第 7 步 ， 
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对 分 量 zj 根据 Metropolis-Hastings 算法 更 新 , 得 到 其 新 的 取 值 zf 。 首先, 由 建议 分 
Ai g(a, ajc) 抽样 产生 分 量 zj 的 候选 值 x@, 这 里 z@) 表示 在 第 i 次 迭代 的 第 
(一 SER O 除去 zf 的 所 有 值 ， 即 


a = CUS 人 gera a E 


其 中 分 量 1,2,…… ,7 一 1 已 经 更 新 。 然 后, 按照 接受 概率 


(OIO) @ (iD 
a(z» Ole 9) min 4 1 Peg legals arj |e) (19.47) 
i CaO ol) 


抽样 交 定 是 否 接受 候选 人 rË, WR a! 被 接受 ， 则 令 oO) = rO, EWE 2 = 
-0 。 其 余 分 量 在 第 了 步 不 改变 。 马尔 可 夫 链 的 转移 概率 为 


p(w a) = a(z! (i— a. 2! 12g (x PD fe) (19.48) 


图 19.10 示意 单 分 量 Metropolis-Hastings 算法 的 迭代 过 程 。 目标 是 对 含有 两 个 变 
量 的 随机 变量 > 进行 抽样 。 如 果 变 量 zl 或 zz 更 新 ,那么 在 水 平 或 垂直 方向 产生 一 
个 移动 , 连续 水 平和 垂直 移动 产生 一 个 新 的 样本 点 。 注 意 由 于 建议 分 布 可 能 不 被 接 
受 ，Metropolis-Hastings 算法 可 能 在 一 些 相 邻 的 时 刻 不 产 生 移动 。 


X24 
2) P(x) 


图 19.10 4) Metropolis-Hastings 算法 例 


19.5 吉 布 斯 抽样 


本 节 叙述 马尔 可 夫 链 莹 特 卡 罗 法 的 常用 算法 吉 布 斯 抽样 ,可 以 认为 是 Metropolis- 
Hastings 算法 的 特殊 情况 , 但 是 更 容易 实现 , 因而 被 广泛 使 用 。 
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19.5.1 基本 原理 


吉 布 斯 抽样 (Gibbs sampling) 用 于 多 元 变量 联合 分 布 的 抽样 和 估计 人 。 其 基本 做 
法 是 ， 从 联合 概率 分 布 定 义 满 条 件 概率 分 布 ， 依 次 对 满 条 件 概率 分 布 进行 抽样 ， 得 到 
样本 的 序列 。 可 以 证 明 这 样 的 抽样 过 程 是 在 一 个 马尔 可 夫 链 上 的 随机 游 走 , 每 一 个 样 
本 对 应 着 马尔 可 夫 链 的 状态 ,平稳 分 布 就 是 目标 的 联合 分 布 。 整 体 成 为 一 个 马尔 可 夫 
链 蒙特 卡 罗 法, 燃烧 期 之 后 的 样本 就 是 联合 分 布 的 随机 样本 。 
假设 多 元 变量 的 联合 概率 分 布 为 p(z) = p(z1,z2,… ,zh)。 吉 布 斯 抽样 从 一 个 初 
始 样本 rO = (0) rO, OT 出 发 , 不 断 进行 迭代 , 每 一 次 迭代 得 到 联合 分 布 
的 一 个 样本 2 = (2,2, vee ,ZO)T, 最 终 得 到 样本 序列 {2 2,.-- al}, 

在 每 次 迭代 中 , 依次 对 个 随机 变量 中 的 一 个 变量 进行 随机 抽样 。 如 果 在 第 i 次 
和 迭代 中 , 对 第 j 个 变量 进行 随机 抽样 ,那么 抽样 的 分 布 是 满 条 件 概率 分 布 plzjlzC) )， 
这 里 z 表示 第 i 次 迭代 中 , 变量 了 以 外 的 其 他 变量 。 

设 在 第 (i 一 1) 步 得 到 样本 (cP aD... a D)T, 在 第 i 步 , 首先 对 第 一 个 
变量 按照 以 下 满 条 件 概率 分 布 随机 抽样 


pilaf, .-- 2) 


得 到 zf) ,之 后 依次 对 第 7 个 变量 按照 以 下 满 条 件 概率 分 布 随机 抽样 


p(a;|x%?,--- te tty yes ci), j=2, »k-1 


得 到 zf， 最 后 对 第 k 个 变量 按照 以 下 满 条 件 概率 分 布 随机 抽样 
plera, 2K) 
得 到 of), FEGBIMMRA rO = (P,a, oP) 
吉 布 斯 抽样 是 单 分 量 Metropolis-Hastings 算法 的 特殊 情况 。 定义 建议 分 布 是 当 
前 变量 jj = 1,2,… ,k 的 满 条 件 概率 分 布 
q(x, x") 一 P(zjlz-7) (19.49) 
这 时 , 接受 概率 a = 1， 


PY cmi p(2’)q(x’, x) 
a(z, x") = min {eee | 
= min {1 Pe -DP's -aple | _ 
7 { ” p(x_;)p(xj|x-3)p(x"j|a—;) } 1 (19.50) 


O 吉 布 斯 抽样 以 统计 力学 莫 基 人 吉 布 斯 (Josiah Willard Gibbs) 命名 , 将 该 算法 与 统计 力学 进行 
比 。 
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REE pæ) = ple’) Bl p( « fej) = (lz 
转移 核 就 是 满 条 件 概率 分 布 


P(x, 2") = 一 D(z5lz-7) (19.51) 


也 就 是 说 依次 按照 单 变量 的 满 条 件 概率 分 布 p(z';|z-;) 进行 随机 抽样 , 就 能 实现 单 分 
Æ Metropolis-Hastings 算法 。 吉 布 斯 抽样 对 每 次 抽样 的 结果 都 接受 , 没有 拒绝 , 这 一 
点 和 一 般 的 Metropolis-Hastings 算法 不 同 。 

这 里 ,假设 满 条 件 概率 分 布 p(z'j|z_;) 不 为 0， 即 马尔 可 夫 链 是 不 可 约 的 。 


19.5.2 ” 吉 布 斯 抽样 算法 


算法 19.3 ( 吉 布 斯 抽样 ) 

输入 : 目标 概率 分 布 的 密度 函数 p(x), 函数 f(z); 

输出 : p(z) 的 随机 样本 zm+lzm+2…… , Zn， 函数 样本 均值 finns 

参数 : WOE m, 迭代 步 数 n。 

(1) 初始 化 。 给 出 初始 样本 sO = (2 2... OT, 

(2) 对 i 循环 执行 

设 第 (i 一 1) 次 迭代 结束 时 的 样本 为 zxG-D = (sD sfd,- ,ztD)T, 则 第 i 
次 迭代 进行 如 下 几 步 操作 : 

D 由 请 条 件 分 布 Plzalm 区) 抽取 a 


O ERRA pajla, ya, a) 抽取 a 


Ck) 由 满 条 件 分 布 plaie, . ,ZO an] 抽取 2) 
得 到 第 i UREA c® = (ce, 2, 2)? 


(3) 得 到 样本 集合 
{rtd gmt... o} 
(4) 计算 
a 
i=m+1 


例 19.10 用 吉 布 斯 抽样 从 以 下 二 元 正 态 分 布 中 抽取 随机 样本 。 


z£ = (£1, £2)" ~ p(z1, £2) 


p(z1, £2) = N(0, X), =|; j 
pil 


378 第 19 章 马尔 可 夫 链 蒙特 卡 罗 法 


解 、 条 件 概率 分 布 为 一 元 正太 分布 
plzılz2) = N(pr2, (1 — p”)) 
2(zalzi) = N(px1, (1 — p”)) 
假设 初始 样本 为 2 = (zf ,z 各 )， 通 过 吉 布 斯 抽样 , 可 以 得 到 以 下 样本 序列 ， 


对 xı 抽样 对 ra 抽样 产生 样本 
ziwvN(pzi,(1 一 p2))， 得 到 of) 22~N(px)), (1—p?)), 得 到 of) ao) = (eg )T 


zı ~N(px-), (1—p?)), 得 到 al za~ N(px{® , (1—p?)), 得 到 a al) = (a, zh )T 


得 到 的 样本 集合 {10D gMt... o}, m< n 就 是 二 元 正 态 分 布 的 随机 抽 
样 。 图 19.11 示意 吉 布 斯 抽样 的 过 程 。 m 


X24 


P(x) 


x) 


19.11 ” 吉 布 斯 抽样 例 


单 分 量 Metropolis-Hastings 算法 和 吉 布 斯 抽样 的 不 同 之 处 在 于 , 在 前 者 算法 中 ， 
抽样 会 在 样本 点 之 间 移 动 , 但 其 间 可 能 在 某 一 些 样本 点 上 停留 《由 于 抽样 被 拒绝 ); 而 
在 后 者 算法 中 , 抽样 会 在 样本 点 之 间 持 续 移动 。 

吉 布 斯 抽样 适合 于 满 条 件 概率 分 布 容易 抽样 的 情况 ， 而 单 分 量 Metropolis- 
Hastings 算法 适合 于 满 条 件 概 率 分 布 不 容易 抽样 的 情况 , 这 时 使 用 容易 抽样 的 条 件 分 
布 作 建议 分 布 。 


19.5.3 ”抽样 计算 


吉 布 斯 抽样 中 需要 对 满 条 件 概率 分 布 进行 重复 多 次 抽样 。 可 以 利用 概率 分 布 的 性 
质 提 高 抽样 的 效率 。 下 面 以 贝 叶 斯 学 习 为 例 介绍 这 个 技巧 。 
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设 y 表示 观测 数据 , a, 0,2 分 别 表示 超 参 数 、 模 型 参数 、 未 观测 数据 , x = (a,b,z)， 
如 图 19.12 所 示 。 贝 叶 斯 学 习 的 目的 是 估计 后 验 概 率 分 布 p(z|y), 求 后 验 概率 最 大 的 
模型 。 

P(x\y) = pla, 0, zly) x p(z, yl9)p(4la)p(a) (19.52) 


式 中 p(a) 是 超 参数 分 布 , p(bla) 是 先 验 分 布 , plz, vlo) 是 完全 数据 的 分 布 。 
© 
O 
©) © 


E 19.12 贝 叶 斯 学 习 的 图 模型 表示 


现在 用 吉 布 斯 抽样 估计 ply) 其 中 y 已 知 , z = (oa, 9, z) 未 知 。 吉 布 斯 抽样 中 各 
个 变量 a, 0, 2 的 满 条 件 分 布 有 以 下 关系 : 


plaila—i,0,z,y) ccp(gla)p(oa) (19.53) 
p(0;|0-;, a, 2,y) x p(z, yl@)p(O|a) (19.54) 
P(zk|2-K, 0,0, y) x p(z, yl) (19.55) 


其 中 ai 表示 变量 ai 以 外 的 所 有 变量 , 9_; 和 ze 类 似 。 满 条 件 概率 分 布 与 若干 条 件 
概率 分 布 的 乘积 成 正比 ,各 个 条 件 概率 分 布 只 由 少量 的 相关 变量 组 成 〈 图 模型 中 相 邻 
结 点 表示 的 变量 )。 所 以 ， 依 满 条 件 概 率 分 布 的 抽样 可 以 通过 依 这 些 条 件 概率 分 布 的 
乘积 的 抽样 进行 。 这样 可 以 大 幅 减 少 抽样 的 计算 复杂 度 ， 因 为 计算 只 涉及 部 分 变量 。 


本 章 概 要 


1. 蒙特 卡 罗 法 是 通过 基于 概率 模型 的 抽样 进行 数值 近似 计算 的 方法 , 蒙特 卡 罗 法 
可 以 用 于 概率 分 布 的 抽样 、 概 率 分 布 数学 期 望 的 估计 、 定 积分 的 近似 计算 。 
随机 抽样 是 蒙特 卡 罗 法 的 一 种 应 用 , 有 直接 抽样 法 、 接受 -拒绝 抽样 法 等 。 接受 - 拒 
绝 法 的 基本 想法 是 , 找 一 个 容易 抽样 的 建议 分 布 , 其 密度 函数 的 数 倍 大 于 等 于 想 要 抽 
样 的 概率 分 布 的 密度 函数 。 按 照 建议 分 布 随机 抽样 得 到 样本 ， 再 按 要 抽样 的 概率 分 布 
与 建议 分 布 的 倍数 的 比例 随机 决定 接受 或 拒绝 该 样本 , 循环 执行 以 上 过 程 。 
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数学 期 望 估计 是 蒙特 卡 罗 法 的 另 一 种 应 用 , 按照 概率 分 布 p(z) 抽取 随机 变量 x 
的 个 独立 样本 , 根据 大 数 定律 可 知 ， 当 样本 容量 增 大 时 , 函数 的 样本 均值 以 概率 1 
收敛 于 函数 的 数学 期 望 


=> pz) [f (2)], n —> œ 


计算 样本 均值 户 ， 作 为 数学 期 望 Epo lf (z)] 的 估计 值 。 
2. 马尔 可 夫 链 是 具有 马尔 可 夫 性 的 随机 过 程 


P(X;|XoX1--- Xt-1) = P(Xi|Xt-1), t= 1,2,--- 


通常 考虑 时 间 齐 次 马尔 可 夫 链 。 有 离散 状态 马尔 可 夫 链 和 连续 状态 马尔 可 夫 链 , 分 别 
由 概率 转移 矩阵 P 和 概率 转移 核 p(z,y) 定义 。 
满足 r= Pr R r(y)= f p(x, y)a(x)da 的 状态 分 布 称 为 马尔 可 夫 链 的 平稳 分 布 。 
马尔 可 夫 链 有 不 可 约 性 、 非 周期 性 、 正 常 返 等 性 质 。 一 个 马尔 可 夫 链 若是 不 可 约 、 
非 周期 、 正 常 返 的 , 则 该 马尔 可 夫 链 满足 遍历 定理 。 当 时 间 趋 于 无 穷 时 , 马尔 可 夫 链 
的 状态 分 布 趋 近 于 平稳 分 布 , 函数 的 样本 平均 依 概率 收敛 于 该 函数 的 数学 期 望 。 


jim P(X iJ\Xo=j) =m, t=1,2,---; jf =1,2,--- 
一 OO 


fi Ex [f(X)], t => co 


可 逆 马 尔 可 夫 链 是 满足 遍历 定理 的 充分 条 件 。 

3. 马尔 可 夫 链 蒙特 卡 罗 法 是 以 马尔 可 夫 链 为 概率 模型 的 蒙特 卡 罗 积 分 方法 , 其 基 
本 想法 如 下 : 

(1) 在 随机 变量 x 的 状态 空间 上 构造 一 个 满足 遍历 定理 条 件 的 马尔 可 夫 链 , 其 
平稳 分 布 为 目标 分 布 p(x); 

(2) 由 状态 空间 的 某 一 点 Xo 出 发 , 用 所 构造 的 马尔 可 夫 链 进行 随机 游 走 , 产生 
样本 序列 Xi, X2,:… Xn 

(3) 应 用 马尔 可 夫 链 遍历 定理 ， 确定 正 整数 mm 和 n(m < n), 得 到 样本 集合 
{m41 m42; Enp 进行 函数 f(z) 的 均值 (遍历 均值 ) 估计 : 


laa a f(zi) 


4. Metropolis-Hastings 算法 是 最 基本 的 马尔 可 夫 链 蒙特 卡 罗 法 。 假设 目标 是 对 概 
率 分 布 p(z) 进行 抽样 , 构造 建议 分 布 q(x, x), 定义 接受 分 布 w(z,z')。 进 行 随机 游 到 


fats 
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假设 当前 处 于 状态 z, 按照 建议 分 布 g(z,z') 随机 抽样 , 按照 概率 a(x, x’) 接受 抽样 ， 
转移 到 状态 s, 按照 概 率 1 一 a(z, 2’) 拒绝 抽样 ,停留 在 状态 r 持续 以 上 操作 , 得 到 
一 系列 样本 。 这样 的 随机 游 走 是 根据 转移 核 为 p(z, 2’) = q(z,z')a(z,z') 的 可 逆 马 尔 
可 夫 链 (满足 遍历 定理 条 件 ) 进行 的 ,其 平稳 分 布 就 是 要 抽样 的 目标 分 布 p(x)。 

5. 吉 布 斯 抽样 (Gibbs sampling) 用 于 多 元 联合 分 布 的 抽样 和 估计 。 吉 布 斯 抽样 
是 单 分 量 Metropolis-Hastings 算法 的 特殊 情况 。 这 时 建议 分 布 为 满 条 件 概率 分 布 


q(x, x") = p(x'|a_;) 


吉 布 斯 抽样 的 基本 做 法 是 ， 从 联合 分 布 定义 满 条 件 概率 分 布 ， 依 次 从 满 条 
件 概率 分 布 进行 抽样 ， 得 到 联合 分 布 的 随机 样本 。 假 设 多 元 联合 概率 分 布 为 
p(x) = p(z1, 22, ,Zk)， 吉 布 斯 抽样 从 一 个 初始 样本 29) = (zto ,zt ,zto)T 出 
BE, 不 断 进行 迭代 , 每 一 次 兴 代 得 到 联合 分 布 的 一 个 样本 zG = (0,29, 2/7, 
TESB i VRARE, 依次 对 第 j 个 变量 按照 满 条 件 概率 分 布 随机 抽样 plzjlz 介 ，… ,zC 1， 
08a), cl), j = 2, 得 到 z 人 9。 最 终 得 到 样本 序列 {z,zG0，… oc}, 


F ag 


马尔 可 夫 链 的 介绍 可 见 文献 [1]。Metropolis-Hastings 算法 和 吉 布 斯 抽样 的 原始 
论文 分 别 是 [2, 3]。 随 机 抽样 的 介绍 见 文献 图 。 马 尔 可 夫 链 蒙特 卡 罗 法 的 介绍 可 以 
参阅 文献 [48]。 也 可 以 观看 YouTube 上 的 视频 : Mathematicalmonk, Markov Chain 
Monte Carlo (MCMC) Introduction. 


4 A 


19.1 用 蒙特 卡 罗 积 分 法 求 


19.2 证明 如 果 马 尔 可 夫 链 是 不 可 约 的 ， 且 有 一 个 状态 是 非 周 期 的 , 则 其 他 所 有 
状态 也 是 非 周期 的 , 即 这 个 马尔 可 夫 链 是 非 周期 的 。 
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19.3 验证 具有 以 下 转移 概率 矩阵 的 马尔 可 夫 链 是 可 约 的 , 但 是 非 周期 的 。 


1/2 1/2 0 0 
1/2 0 1/2 0 
0 
1 


0 0 
1 0 1/2 0 
01/72 0 1 
0 0 


19.5 证 明 可 逆 马 尔 可 夫 链 一 定 是 不 可 约 的 。 


19.6 从 一 般 的 Metropolis-Hastings 算法 推导 出 单 分 量 Metropolis-Hastings 

19.7 假设 进行 伯 努 利 实验 , 后 验 概率 为 POly) 其 中 变量 y © {0,1} KRK 
验 可 能 的 结果 , 变量 9 表示 结果 为 1 的 概率 。 再 假设 先 验 概率 PO) 遵循 Beta 分 
Ai B(a,B), EF a = 1,8 = 1; 似 然 函数 P(yl0) 遵循 二 项 分 布 Bin(n, k, 0), HP 
n=10,k = 4， 即 实验 进行 10 次 其 中 结果 为 1 的 次 数 为 4。 试用 Metropolis-Hastings 
算法 求 后 验 概率 分 布 P(gly) x P(9)P(y|9) 的 均值 和 方差 。( 提 示 : 可 采用 Metropolis 
选择 , 即 假设 建议 分 布 是 对 称 的 。》 


19.8 ” 设 某 试验 可 能 有 五 种 结果 , 其 出 现 的 概率 分 别 为 


十 aes (1—0—7) 
模型 含有 两 个 参数 0 M n, 都 介 于 0 和 1 之 间 。 现 有 22 次 试验 结果 的 观测 值 为 


Y = (Y1; Y2; Ys, Ya, Ys) = (14, 1, 1, 1, 5) 


其 中 y 表示 22 次 试验 中 第 i 个 结果 出 现 的 次 数 , i = 1,2,--- ,5。 试 用 吉 布 斯 抽样 估 
计 参 数 0 和 7 的 均值 和 方差 。 
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第 20 章 ”潜在 狄 利克 雷 分 配 


潜在 狄 利 克 雷 分 配 (latent Dirichlet allocation, LDA) , 作为 基于 贝 叶 斯 学 习 的 话 
题 模型 , 是 潜在 语义 分 析 、 概 率 潜在 语义 分 析 的 扩展 , 于 2002 年 由 Blei 等 提出 。LDA 


在 文本 数据 挖掘 、 图 像 处 理 、 生 物 信息 处 理 等 领域 被 广泛 使 用 


LDA 模型 是 文本 集合 的 生成 概率 模型 。 假 设 每 个 文本 由 话题 的 一 个 多 项 分 布 表 
示 , 每 个 话题 由 单词 的 一 个 多 项 分 布 表示 , 特别 假设 文本 的 话题 分 布 的 先 验 分 布 是 狄 
利克 雷 分 布 , 话题 的 单词 分 布 的 先 验 分 布 也 是 狄 利克 雷 分 布 。 先 验 分 布 的 导入 使 LDA 


能 够 更 好 地 应 对 话题 模型 学 习 中 的 过 拟 合 现象 。 


LDA 的 文本 集合 的 生成 过 程 如 下 : 首先 随机 生成 一 个 文本 的 话题 分 布 , 之 后 在 该 
文本 的 每 个 位 置 , 依据 该 文本 的 话题 分 布 随 机 生成 一 个 话题 , 然后 在 该 位 置 依据 该 话 
题 的 单词 分 布 随机 生成 一 个 单词 , 直至 文本 的 最 后 一 个 位 置 ,生成 整个 文本 。 重 复 以 


上 过 程 生成 所 有 文本 。 


LDA 模型 是 含有 隐 变 量 的 概率 图 模型 。 模 型 中 ,每 个 话题 的 单词 分 布 ， 每 个 文 


本 的 话题 分 布 , 文本 的 每 个 位 置 的 话题 是 隐 变 量 ; 文本 的 每 个 位 置 的 
量 , LDA 模型 的 学 习 与 推理 无 法 直接 求解 , 通常 使 用 吉 布 斯 抽样 (Gibbs 


和 词 是 观测 变 
sampling) 和 


变 分 EM 算法 (variational EM algorithm)， 前 者 是 蒙特 卡 罗 法 , 而 后 者 是 近似 算法 。 
本 章 20.1 节 介 绍 狄 利克 雷 分布 ,，20.2 节 阅 述 潜在 狄 利克 雷 分 配 模 型 ,20.3 节 和 


20.4 节 叙 述 模型 的 算法 , 包括 吉 布 斯 抽样 和 变 分 EM 算法 。 


20.1 WARENA 


20.1.1 分 布 定义 
首先 介绍 作为 LDA 模型 基础 的 多 项 分 布 和 狄 利克 雷 分 布 。 
1. 多 项 分 布 


多 项 分 布 (multinomial distribution) 是 一 种 多 元 离散 随机 变量 的 概 
项 分 布 (binomial distribution) 的 扩展 。 


率 分 布 , 是 二 
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假设 重复 进行 n 次 独立 随机 试验 , 每 次 试验 可 能 出 现 的 结果 有 大 种 , 第 i 种 结果 出 
现 的 概率 为 pi, 第 i 种 结果 出 现 的 次 数 为 wi。 如 果 用 随机 变量 X = (X1, X2,:… Xk) 
表示 试验 所 有 可 能 结果 的 次 数 , 其 中 X; 表示 第 i 种 结果 出 现 的 次 数 , 那么 随机 变量 
X 服从 多 项 分 布 。 

定义 20.1 (多 项 分 布 ) ”车 多 元 离散 随机 变量 X = (X1, 义 2,… ,Xk) 的 概率 质 


nl! 
P(X, = m, X2 = n2,. ,Xk = nk) = mimi a L P Pk 


-— JI" (20.1) 


k k 

其 中 p= (pi1,p2,*… ,Pk), pi > 0,i = 1,2, ,k, Xni =y Soni =n, WAR ALR 
EX 服从 参数 为 (n,p) 的 多 项 分 布 , i X ~Mult(n,p). 
当 试 验 的 次 数 n 为 1 时 , 多 项 分 布 变 成 类 别 分 布 (categorical distribution)。 类 
别 分 布 表 示 试 验 可 能 出 现 的 k 种 结果 的 概率 。 显 然 多 项 分 布 包含 类 别 分 布 。 

2. 狄 利克 雷 分 布 

狄 利克 雷 分 布 (Dirichlet distribution) 是 一 种 多 元 连续 随机 变量 的 概率 分 布 , 是 
贝塔 分 布 (beta distribution) 的 扩展 。 在 贝 叶 斯 学 习 中 ， 狄 利克 雷 分 布 常 作 为 多 项 分 
布 的 先 验 分 布 使 用 。 

定义 20.2( 狄 利克 雷 分 布 ) ”车 多 元 连续 随机 变量 0 = (01,02,… ,Ok) 的 概率 密 
度 函 数 为 


k 
deor 
p(O\a) = Ast) Toe =l (20.2) 
TI ai) i=1 


k 
其 中 306; =1, 6; 2 0, a = (a4, 02,°-+ aK), ai > 0, i=1,2,--- ,k， 则 称 随机 变量 
i=l 


0 服从 参数 为 a 的 犹 利克 雷 分 布 , 记 作 0 ~ Dir(a). 
式 中 TI(s) 是 伽 马 函数 ， 定 义 为 
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具有 性 质 
T (s+1)= sI(s) 


当 s 是 自然 数 时 ,有 
I(s+1)=s! 


由 于 满足 条 件 


k 
620, D0:=1 
i=1 
所 以 狄 利克 雷 分 布 9 存在 于 (k 一 1) 维 单纯 形 上 。 图 20.1 为 二 维 单纯 形 上 的 狄 利克 雷 
分 布 ( 详 见 文 前 彩 图 )。01 十 + ba = 1, 01, 02,03 0。 图 中 狄 利克 雷 分 布 的 参数 为 


a = (3,3,3), œ = (7,7,7), a = (20, 20, 20), a = (2,6,11),a = (14, 9, 5), a = (6,2,6)。 


和 4 


图 20.1 ” 狄 利克 雷 分 布 例 ( 见 彩 图 ) 


B(a) = -Ei 一 (20.3) 


则 犹 利克 雷 分 布 的 密度 函数 可 以 写成 


k 
2(gla) = a le" (20.4) 
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B(a) 是 规范 化 因子 , 称 为 多 元 贝塔 函数 (或 扩展 的 贝塔 函数 )。 由 密度 函数 的 性 质 


PF crag (Ee) a 


TE feo 
i=1 


Bi) = / JTJ oqo (20.5) 


所 以 式 (20.5) 是 多 元 贝塔 函数 的 积分 表示 。 
3. 二 项 分 布 和 贝塔 分 布 
二 项 分 布 是 多 项 分 布 的 特殊 情况 ， 贝 塔 分 布 是 狄 利克 雷 分 布 的 特殊 情况 。 
二 项 分 布 是 指 如 下 概率 分 布 。X 为 离散 随机 变量 ， 取 值 为 m， 其 概率 质量 函数 为 


P(X =m)=(" pa-p, m=0,1,2,-- 4m (20.6) 


HH n 和 p (0 < p< 1) 是 参数 。 


贝塔 分 布 是 指 如 下 概率 分 布 , X 为 连续 随机 变量 , 取 值 范 围 为 [0, 1]， 其 概率 密度 
函数 为 


1 s—1 t—1 
| 
p(x) = Bist) eh ý (20.7) 
0, 其 他 
其 中 s > 0 和 t> 0 是 参数 , B(s,t) = p 是 贝塔 函数 ， 定 义 为 
B(s,t) = f zs-1(1 一 zt-ldz (20.8) 
0 
当 s,t 是 自然 数 时 ， , i 
— 1)!(t— 1)! 
B(s,t) = 一 一 (20.9) 


“on 为 1 时 ,二 项 分 布 变 成 伯 努 利 分 布 (Bernoulli distribution) 或 0-1 分 布 。 
伯 努 利 分 布 表示 试验 可 能 出 现 的 2 种 结果 的 概率 。 显 然 二 项 分 布 包含 伯 努 利 分 布 。 
20.2 给 出 几 种 概率 分 布 的 关系 。 
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狼 利 克 雷 分 布 AR 多 项 分 布 as 类 别 分 布 
包含 包含 包含 

ig ae 
贝塔 分 布 | 二 项 分 布 {SSSA 


图 20.2 ”概率 分 布 之 间 的 关系 


20.1.2 H4apse3e 


狄 利克 雷 分 布 有 一 些 重要 性 质 : (1) 狄 利克 雷 分 布 属于 指数 分 布 族 ; (2) 狄 利克 雷 
分 布 是 多 项 分 布 的 共 轿 先 验 (conjugate prior) 。 


贝 叶 斯 学 习 中 常 使 用 共 轿 分 布 。 如 果 后 验 分布 与 先 验 分 布 属于 同类 ， 则 先 验 
分 布 与 后 验 分 布 称 为 共 轿 分 布 (conjugate distributions) ， 先 验 分 布 称 为 共 轿 先 
验 (conjugate prior) 。 如 果 多 项 分 布 的 先 验 分 布 是 狄 利克 雷 分 布 , 则 其 后 验 分 布 也 为 
狄 利克 雷 分 布 , 两 者 构成 共 轿 分 布 。 作 为 先 验 分 布 的 狄 利克 雷 分 布 的 参数 又 称 为 超 参 
数 。 使 用 共 斩 分 布 的 好 处 是 便于 从 先 验 分 布 计算 后 验 分 布 。 


BWW = {wi,w2,… ,wk} 是 由 大 个 元 素 组 成 的 集合 。 随 机 变量 X 服从 WwW 
上 的 多 项 分 布 , X ~ Mult(n, 6), 其 中 n= (nana np) 和 0 = (01,02, Ox) 
是 参数 。 参数 n HAW 中 重复 独立 抽取 样本 的 次 数 , mi 为 样本 中 wi 出 现 的 次 
数 (i = 1,2,… kb); 参数 0; 为 wi 出 现 的 概率 (i = 1,2,… ,kk)。 


将 样本 数据 表示 为 D, 目标 是 计算 在 样本 数据 D 给 定 条 件 下 参数 9 的 后 验 概率 
p(0|D)。 对 于 给 定 的 样本 数据 D, 似 然 函 数 是 


k 
p(Dl0) = 67632 6 = JJ or (20.10) 
i=1 


假设 随机 变量 9 服从 狄 利克 雷 分 布 p(9|a), 其 中 a = (a1, a2,… ,ak) 为 参数 。 则 
9 的 先 验 分 布 为 


k 
T (>: a) k 1 & 
记 1 e 


pla) = = [oe = = J] os? = Dirolla), oi>0 (20.11) 
TIros) i=1 t=1 


i=1 
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根据 贝 叶 斯 规则 , 在 给 定 样本 数据 D 和 参数 a 条 件 下 , 9 的 后 验 概率 分 布 是 


_ p(DIO)p(Ola) 
OPO Dja 
1 
lea 
k 
gn ai 一 1 
/ ‘BY dé 
= 1 F Dai 十 ai 一 1 
~ Bla +n) I e 
= Dir(b|la +n) (20.12) 


可 以 看 出 先 验 分 布 (20.11) 和 后 验 分 布 (20.12) 都 是 狄 利克 雷 分 布 ， 两 者 有 
不 同 的 参数 ， 所 以 狄 利克 雷 分 布 是 多 项 分 布 的 共 二 先 验 。 狄 利克 雷 后 验 分 布 的 
参数 等 于 狄 利克 雷 先 验 分 布 参数 a = (aaz ak) 加 上 多 项 分 布 的 观测 计数 
n= (nnz nkp 好 像 试验 之 前 就 已 经 观察 到 计数 a = (ai, a2,… ,ak)， 因 此 也 
把 a 叫做 先 验 伪 计数 (prior pseudo-counts) o 


20.2 潜在 狄 利克 雷 分 配 模型 


20.2.1 基本 想法 


潜在 狄 利克 雷 分 配 LDA) 是 文本 集合 的 生成 概率 模型 。 模 型 假设 话题 由 单词 的 
多 项 分 布 表 示 , 文本 由 话题 的 多 项 分 布 表示 ,单词 分 布 和 话题 分 布 的 先 验 分 布 都 是 狄 
利克 雷 分 布 。 文 本 内 容 的 不 同 是 由 于 它们 的 话题 分 布 不 同 。( 严 格 意义 上 说 , 这 里 的 多 
项 分 布 都 是 类 别 分 布 , 在 机 器 学 习 与 自然 语言 处 理 中 ， 有 时 对 两 者 不 作 严 格 区 分 。) 

LDA 模型 表示 文本 集合 的 自动 生成 过 程 : 首先 , 基于 单词 分 布 的 先 验 分 布 ( 狄 利 
克 雷 分 布 ) 生成 多 个 单词 分 布 , 即 决定 多 个 话题 内 容 ; 之 后 , 基于 话题 分 布 的 先 验 分 
布 〈 狄 利克 雷 分 布 ) 生成 多 个 话题 分 布 , 即 决 定 多 个 文本 内 容 ; 然后 , 基于 每 一 个 话题 
分 布 生成 话题 序列 , 针对 每 一 个 话题 , 基于 话题 的 单词 分 布 生成 单词 , 整体 构成 一 个 
单词 序列 , 即 生成 文本 , 重复 这 个 过 程 生成 所 有 文本 。 文本 的 单词 序列 是 观测 变量 , 文 
本 的 话题 序列 是 隐 变 量 , 文本 的 话题 分 布 和 话题 的 单词 分 布 也 是 隐 变 量 。 图 20.3 示意 
LDA 的 文本 生成 过 程 ( 详 见 文 前 彩 图 )。 

LDA 模型 是 概率 图 模型 ,其 特点 是 以 狄 利克 雷 分 布 为 多 项 分 布 的 先 验 分 布 , 学习 
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观测 变量 隐 变 量 单词 分 布 的 先 验 分 布 
( 狄 利克 雷 分 布 ) 


Q 
li 


il 


,jw 话题 1 的 单词 分 布 ”话题 2 的 单词 分 布 ”话题 3 的 单词 分 布 
文本 1 : 单词 序列 话题 序列 h i 
E 3 
— a | = 人 | 
—— 日 _ 
oO em z 
文本 2 : 单词 序列 话题 序列 文本 1 的 话题 分 布 = 
国 
一 一 SEE = e 话题 分 布 的 先 验 分 布 
= a | [| ( 狄 利克 雷 分 布 ) 
- = z = 
中 文本 2 的 话题 分 布 


图 20.3 LDA 的 文本 生成 过 程 ( 见 彩 图 ) 


就 是 给 定 文本 集合 , 通过 后 验 概率 分 布 的 估计 , 推断 模型 的 所 有 参数 。 利用 LDA 进行 
话题 分 析 , 就 是 对 给 定 文本 集合 , 学习 到 每 个 文本 的 话题 分 布 ， 以 及 每 个 话题 的 单词 
分 布 。 

可 以 认为 LDA 是 PLSA《〈 概 率 潜在 语义 分 析 ) 的 扩展 , 相同 点 是 两 者 都 假设 话 
题 是 单词 的 多 项 分 布 , 文本 是 话题 的 多 项 分 布 。 不同 点 是 LDA 使 用 狄 利克 雷 分 布 
作为 先 验 分 布 ， 而 PLSA 不 使 用 先 验 分 布 (或 者 说 假设 先 验 分 布 是 均匀 分 布 )， 两 
者 对 文本 生成 过 程 有 不 同 假设 ; 学 习 过 程 LDA 基于 贝 叶 斯 学 习 , 而 PLSA 基于 极 
大 似 然 估计 。LDA 的 优点 是 , 使 用 先 验 概率 分 布 , 可 以 防止 学 习 过 程 中 产生 的 过 拟 


合 (over-fitting) 。 


20.2.2 ”模型 定义 


本 书 采用 常用 LDA 模型 的 定义 ,与 原始 文献 中 提出 的 模型 略 有 不 同 。 

1. 模型 要 素 

潜在 狄 利克 雷 分 配 LDA 使 用 三 个 集合 : 一 是 单词 集合 = {wi,… wes, 
wv}， 其 中 w 是 第 v 个 单词 , v = 1,2,… V, V 是 单词 的 个 数 。 二 是 文本 集合 
D = {wi,… ,Wm,… ,WM}, 其 中 wm 是 第 m 个 文本 , m = 1,2,… , M，M 是 文本 
的 个 数 。 文本 wm 是 一 个 单词 序列 wm = (Wmi ,mn ,WmNm)， 其 中 wmm 是 
文本 wm 的 第 nn 个 单词 , mn = 1,2,… , Nm Nm 是 文本 wm 中 单词 的 个 数 。 三 是 话题 
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REZ = {21,… thy ek} 其 中 zx 是 第 个 话题 ,k= 1,2,… ,天 ,天 是 话题 的 
个 数 。 

每 一 个 话题 zy 由 一 个 单词 的 条 件 概 率 分 布 p(w|zk) 决定 , w e We 分 布 p(wlzx) 
服从 多 项 分 布 (严格 意义 上 类 别 分 布 ), 其 参数 为 pk。 参数 pk 服从 狄 利克 雷 分 布 ( 先 
验 分 布 )， 其 超 参 数 为 Bo BR wk 是 一 个 V 维 向 量 wk = (Pk pr2,… pkv) 其 中 
Pko 表示 话题 z 生成 单词 wy 的 概率 。 所 有 话题 的 参数 向 量 构 成 一 个 KK x V 矩阵 
p= {er}. BBM B 也 是 一 个 V 维 向 量 B = (Bi, Ba,… ,pv)。 

每 一 个 文本 wm 由 一 个 话题 的 条 件 概率 分 布 p(z|wm) 决定 , z E€ Zo 分布 p(z|wm) 
服从 多 项 分 布 (严格 意义 上 类 别 分 布 ), 其 参数 为 gm。 参数 Om 服从 狄 利克 雷 分 布 ( 先 
验 分 布 ), 其 超 参数 为 a。 参数 Om 是 一 个 K 维 向 量 Om = (Omi, Om ,0mk)， 其 中 
Omk 表示 文本 wm 生成 话题 z 的 概率 。 所 有 文本 的 参数 向 量 构 成 一 个 M x K 矩阵 
0 = {9m}M_1。 超 参数 a 也 是 一 个 天 维 向 量 ac = (aa ,Qk)。 

每 一 个 文本 ww 中 的 每 一 个 单词 Winn 由 该 文本 的 话题 分 布 p(z|wm) 以 及 所 有 话 
题 的 单词 分 布 p(w|zx) 决定 。 

2. 生成 过 程 

LDA 文本 集合 的 生成 过 程 如 下 : 

给 定单 词 集合 W, 文本 集合 D, 话题 集合 Z， 狄 利克 和 雷 分 布 的 超 参数 a 和 Bo 

(1) 生成 话题 的 单词 分 布 

随机 生成 K 个 话题 的 单词 分 布 。 具体 过 程 如 下 , 按照 狄 利克 雷 分 布 Dir(@) 随机 
生成 一 个 参数 向 量 pko pr ~ Dir(8), 作为 话题 z 的 单词 分 布 p(wlzk), w EW, k= 
T9850 as 

(2) 生成 文本 的 话题 分 布 

随机 生成 M 个 文本 的 话题 分 布 。 具体 过 程 如 下 : 按照 狄 利克 雷 分 布 Dir(a) 随 
机 生成 一 个 参数 向 量 Oms Om ~ Dir(a)， 作 为 文本 wm 的 话题 分 布 p(z|wm)，m = 
LD MS 

(3) 生成 文本 的 单词 序列 

随机 生成 M 个 文本 的 Ni 个 单词 ,文本 wm《m = 1,2,… ,MD) 的 单词 wn (n = 
1,2,… , Nm) 的 生成 过 程 如 下 : 

(3-1) 首先 按照 多 项 分 布 Mult(9m) 随机 生成 一 个 话题 zmn zmn ~ Mult(Om) > 

(3-2) 然后 按照 多 项 分 布 Mult (Pen) 随机 生成 一 个 单词 wn wmn ~ Mult (pz )。 
文本 wm 本 身 是 单词 序列 wm = (Wmi, Wm, ,wmN,)， 对 应 着 隐 式 的 话题 序列 
Zm = (Zit Zm2s One »2mNmm)® 


总 结 LDA 生成 文本 的 算法 如 下 。 
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算法 20.1 (LDA 的 文本 生成 算法 ) 

(1) 对 于 话题 z (k= 1,2,---,K): 

生成 多 项 分 布 参数 wk ~ Dir(B), 作为 话题 的 单词 分 布 p(w|zk); 

(2) 对 于 文本 wm (m= 1,2,:… ,MD): 

生成 多 项 分 布 参数 Om ~ Dir(a), 作为 文本 的 话题 分 布 p(z|wm); 

(3) 对 于 文本 wm 的 单词 Winn Cm = 1,2,---,M, n=1,2,---,Nm): 

(a) 生成 话题 zmn ~ Mult (Om), 作为 单词 对 应 的 话题 ; 

O) 生成 单词 wmn ~ Mult (ps, )。 国 
LDA 的 文本 生成 过 程 中 , 假定 话题 个 数 K 给 定 , 实际 通常 通过 实验 选 定 。 狄 利 

克 雷 分 布 的 超 参数 a 和 8 通常 也 是 事先 给 定 的 。 在 没有 其 他 先 验 知识 的 情况 下 , 可 以 

假设 向 量 a 和 6 的 所 有 分 量 均 为 1, 这 时 的 文本 的 话题 分 布 bw 是 对 称 的 , 话题 的 单 

词 分 布 ok 也 是 对 称 的 。 


20.2.3 ”概率 图 模型 


LDA 模型 本 质 是 一 种 概率 图 模型 (probabilistic graphical model) 。 图 20.4 为 
LDA 作为 概率 图 模型 的 板块 表示 (plate notation) 。 图 中 结 点 表示 随机 变量 ,实心 结 
点 是 观测 变量 , 空心 结 点 是 隐 变 量 ; 有 向 边 表示 概率 依存 关系 ; 矩形 (板块) 表示 重 
复 , 板块 内 数字 表示 重复 的 次 数 。 


OTe , 


© =) “@), 


m| 


图 20.4 LDA 的 板块 表示 


图 20.4 中 的 LDA 板块 表示 , 结 点 a 和 6 是 模型 的 超 参数 , 结 点 pk 表示 话题 
的 单词 分 布 的 参数 , 结 点 gw 表示 文本 的 话题 分 布 的 参数 ， 结 点 zmm 表示 话题 , 结 点 
mn 表示 单词 。 结 点 6 指向 结 点 wk， 重复 K 次 , 表示 根据 超 参 数 6 生成 天 个 话题 
的 单词 分 布 的 参数 gpk; 结 点 a 指向 结 点 On, 重复 M 次 , 表示 根据 超 参数 a 生成 M 
个 文本 的 话题 分 布 的 参数 Om: 结 点 Om 指向 结 点 2mo 重复 Nm 次 , 表示 根据 文本 的 
话题 分 布 Om 生成 Nm 个 话题 zmn: 结 点 zmn 指向 结 点 Wmns 同时 K 个 结 点 px 也 指 
向 结 点 Wm 表示 根据 话题 zmn WRK 个 话题 的 单词 分 布 ok 生成 单词 wnn。 
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板块 表示 的 优点 是 简洁 , 板块 表示 展开 之 后 , 成 为 普通 的 有 向 图 表示 (图 20.5)。 
有 向 图 中 结 点 表示 随机 变量 , 有 向 边 表示 概率 依存 关系 。 可 以 看 出 LDA 是 相同 随机 
变量 被 重复 多 次 使 用 的 概率 图 模型 。 


图 20.5 LDA 的 展开 图 模型 表示 


20.2.4 ”随机 变量 序列 的 可 交换 性 


一 个 有 限 的 随机 变量 序列 是 可 交换 的 (exchangeable)， 是 指 随机 变量 的 联合 概率 
分 布 对 随机 变量 的 排列 不 变 。 


P(z1, 7Z2 ZN) = P(Er(1), Zr ;Tr(N)) (20.13) 


这 里 (1), 7(2),… ,7(N) 代表 自然 数 1,2,… N 的 任意 一 个 排列 。 一 个 无 限 的 随机 
变量 序列 是 无 限 可 交换 (infinitely exchangeable) MH, 是 指 它 的 任意 一 个 有 限 子 序列 
都 是 可 交换 的 。 

如 果 一 个 随机 变量 序列 Xi1, X2,… , Xn,… 是 独立 同 分 布 的 , 那么 它们 是 无 限 
可 交换 的 。 反 之 不 然 。 

随机 变量 序列 可 交换 的 假设 在 贝 叶 斯 学 习 中 经 常 使 用 。 根据 De Finetti 定理 , 任 
意 一 个 无 限 可 交换 的 随机 变量 序列 对 一 个 随机 参数 是 条 件 独 立 同 分 布 的 。 即 任意 一 个 
无 限 可 交换 的 随机 变量 序列 X, XX2,… , Xi,… 的 基于 一 个 随机 参数 Y 的 条 件 概率 ， 
等 于 基于 这 个 随机 参数 Y 的 各 个 随机 变量 Xi, X2,… Xoo 的 条 件 概率 的 乘积 。 


P (X1, X25: ,Xi,---|¥) = P(XI|Y) P(X2lY)::: P(XilY)::: (20.14) 
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LDA 假设 文本 由 无 限 可 交换 的 话题 序列 组 成 。 由 De Finetti 定理 知 , 实际 是 假设 
文本 中 的 话题 对 一 个 随机 参数 是 条 件 独 立 同 分 布 的 。 所 以 在 参数 给 定 的 条 件 下 , 文本 
中 的 话题 的 顺序 可 以 忽略 。 作 为 对 比 , 概率 潜在 语义 模型 假设 文本 中 的 话题 是 独立 同 
分 布 的 , 文本 中 的 话题 的 顺序 也 可 以 忽略 。 


20.2.5 ”概率 公式 
LDA 模型 整体 是 由 观测 变量 和 隐 变 量 组 成 的 联合 概率 分 布 , 可 以 表 为 


K M Nm 
p(w,z,0, pla, B) = [I plor) TE pC0mlo) J] p(2mnl@m)p(wmn|2mns~) (20.15) 
k=1 m=1 n=1 


其 中 观测 变量 w 表示 所 有 文本 中 的 单词 序列 ， 隐 变量 z 表示 所 有 文本 中 的 话题 序列 ， 
隐 变 量 9 表示 所 有 文本 的 话题 分 布 的 参数 ， 隐 变量 yp 表示 所 有 话题 的 单词 分 布 的 参 
数 , a 和 6 是 超 参数 。 式 中 ply b) 表示 超 参 数 8 给 定 条 件 下 第 个 话题 的 单词 分 布 
的 参数 wk 的 生成 概率 , p(0m|a) 表示 超 参 数 a 给 定 条 件 下 第 m 个 文本 的 话题 分 布 的 
参数 gm 的 生成 概率 , p(zmn|9m) 表示 第 m 个 文本 的 话题 分 布 Om 给 定 条 件 下 文本 的 
第 m 个 位 置 的 话题 zm 的 生成 概率 ,p(wmn|zmn,p) 表示 在 第 m 个 文本 的 第 n 个 位 
置 的 话题 zmn 及 所 有 话题 的 单词 分 布 的 参数 yp 给 定 条 件 下 第 m 个 文本 的 第 nn 个 位 
置 的 单词 wmn 的 生成 概率 。 参 见 图 20.5。 


第 m 个 文本 的 联合 概率 分 布 可 以 表 为 
K Nm 
P(Wm, Zm, Om; pla, 8) = Il P( P|) p(Am |e) Il P(Zmn|9m)P(WmnlZmns~) (20.16) 
k=1 n=1 


其 中 wm 表示 该 文本 中 的 单词 序列 ，zm 表示 该 文本 的 话题 序列 ，gm 表示 该 文本 的 话 
题 分 布 参数 。 

LDA 模型 的 联合 分 布 含 有 隐 变 量 , 对 隐 变 量 进 行 积分 得 到 边缘 分 布 。 

参数 Om 和 y 给 定 条 件 下 第 m 个 文本 的 生成 概率 是 


Nm K 
P(Wmlôm, p) = Il [S pene = Honma) (20.17) 


n=1 Lk=1 


超 参 数 a 和 6 给 定 条 件 下 第 m 个 文本 的 生成 概率 是 


K Nm 
wmla, 8) = B mla 
p(Wmla, 8) TI / re | /a TI 


n=1 


K 
| 六 re- nme) ao dyk 


i=l 
(20.18) 
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超 参数 a 和 6 给 定 条 件 下 所 有 文本 的 生成 概率 是 


p(wla, 8 =T] fovea | TT freno I 


n=1 


[Senn tlm) nal) dé, oe 
l=1 
(20.19) 


20.3 LDA 的 吉 布 斯 抽样 算法 


潜在 狄 利克 雷 分 配 LDA) 的 学 习 (参数 估计 ) 是 一 个 复杂 的 最 优化 问题 , 很 难 精 
确 求解 ,只 能 近似 求解 。 常 用 的 近似 求解 方法 有 吉 布 斯 抽样 (Gibbs sampling) 和 变 分 
推理 (variational inference) 。 本 节 讲 述 吉 布 斯 抽样 ， 下 节 讲 述 变 分 推理 算法 。 吉 布 斯 
抽样 的 优点 是 实现 简单 , 缺点 是 迭代 次 数 可 能 较 多 。 


20.3.1 基本 想法 


LDA 模型 的 学 习 , 给 定 文本 (单词 序列 ) 的 集合 D = {wi,… ,wm,… ,Wm 其 
中 wm 是 第 m 个 文本 (单词 序列 ), wm = (wm ,mn ,WmNm)， 以 w 表示 文本 
集合 的 单词 序列 , 即 w= (wir, w2, , WN, W21, W2, ,102Na WMI WMD"; 
WMNw) (参考 图 20.5); 超 参 数 a 和 6 已 知 。 目 标 是 要 推断 : (1) 话题 序列 的 集 
Ez = {2z1,… ,Zzm,… zM} 的 后 验 概率 分 布 , 其 中 zm 是 第 mm 个 文本 的 话题 序 
Bil, Zm = (zm1 ;ZZmny ;ZZmNm); (2) 参数 9 = {01, ,0m,… ,9m}， 其 中 gm 是 
文本 wm 的 话题 分 布 的 参数 ; (3) 参数 p = {yp1,… Me eK} 其 中 py 是 话题 ze 
的 单词 分 布 的 参数 。 也 就 是 说 , 要 对 联合 概率 分 布 p(w,z,9, pla, 3) 进行 估计 , 其 中 w 
是 观测 变量 ,而 z, 9, y 是 隐 变 量 。 

第 19 章 讲述 了 吉 布 斯 抽样 , 这 是 一 种 常用 的 马尔 可 夫 链 蒙特 卡 罗 法 。 为 了 估计 
多 元 随机 变量 x 的 联合 分 布 p(z)， 吉 布 斯 抽样 法 选择 z 的 一 个 分 量 , 固定 其 他 分 量 ， 
按照 其 条 件 概 率 分 布 进行 随机 抽样 , 依次 循环 对 每 一 个 分 量 执行 这 个 操作 , 得 到 联合 
分 布 p(x) 的 一 个 随机 样本 , 重复 这 个 过 程 , 在 燃烧 期 之 后 , 得 到 联合 概率 分 布 p(z) 的 
样本 集合 。 

LDA 模型 的 学 习 通 常 采 用 收缩 的 吉 布 斯 抽样 (collapsed Gibbs sampling) 方法， 
ERANA, 通过 对 隐 变 量 9 和 p 积分 , 得 到 边缘 概率 分 布 p(w,zla, p) (也 是 联合 分 
布 ), 其 中 变量 w 是 可 观测 的 , 变量 z 是 不 可 观测 的 ; 对 后 验 概率 分 布 p(z|w,a,B) 进 
行 吉 布 斯 抽样 , 得 到 分 布 p(zlw,a, b) 的 样本 集合 ; 再 利用 这 个 样本 集合 对 参数 9 和 
o 进行 估计 , 最 终 得 到 LDA HL! p(w, z, 0, gla, 8) 的 所 有 参数 估计 。 


O 原理 上 也 可 以 考虑 整体 吉 布 斯 抽样 (ful Gibbs sampling), 但 算法 更 加 复杂 。 
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20.3.2 ”算法 的 主要 部 分 
根据 上 i 


TRUSS OT. 问题 转 化 为 对 后 验 概率 分 布 p(z|w, a, 8) 的 吉 布 


„a, B) 的 吉 布 斯 抽样 ,该 分 
布 表 示 在 所 有 文本 的 单词 序列 给 定 条 件 下 所 有 可 能 话题 序列 的 条 件 概 率 。 这 里 先 给 
该 分 布 的 表达 式 , 之 后 给 出 该 分 布 的 满 条 件 分 布 表 达 式 


1. 抽样 分 布 的 表达 式 
首先 有 关系 


E 


p(w, zla, 8) 
p(z|w, a, 8) = lo By x p(w, zla, 8) (20.20) 
这 里 变量 w, a 和 6 已 知 , 分 母 相同 , 可 以 不 予 考虑 。 联合 分 布 p(w,zla, b) 的 表达 式 
可 以 进一步 分 解 为 


p(w, z|a, 8) = p(wlz, a, B)p(zla, 8) = p(wlz, 8)p(zla) 


(20.21) 
两 个 因子 可 以 分 别处 理 。 


推导 第 一 个 因子 p(w|z, p) 的 表达 式 。 首 先 
p(wlz, p) = Il Il ppr” (20.22) 
k=1 v=1 


其 中 pj 是 第 大 个 话题 生成 单词 集合 第 v 个 单词 的 概率 ,mk 是 数据 中 第 个 话题 生 
成 第 v 个 单词 的 次 数 。 于 是 


p(wlz, 8) = / p(wlz,pjp(plp)dp 


(20.23) 


P mg = {np1, Nk2; °° 
第 二 个 


TUKV]。 


因子 p(zla) 的 表达 式 可 以 类 似 推导 。 首先 


M K 
p(zl0) = [I [oz 


(20.24) 
m=1 k=1 
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其 中 gmk 是 第 m 个 文本 生成 第 k 个 话题 的 概率 , nme 是 数据 中 第 m 个 文本 生成 第 
个 话题 的 次 数 。 于 是 


p(zla) = J pzlo)p(glajdg 


-Jis 


大 we l) 


> 


> 
I 
= 


Ot onl ap 


pl 
到 - 
Ea 
=> 


> 
I 
= 


M 
-JI Blnm +a) (20.25) 


其 中 nm = {nmaymnm2, ,nmK}。 由 式 (20.23) 和 式 (20.25) 得 


K M 


B(nx + 8) B(nm +a) 
‚wla, B) = 。 一 二 一 一 20.26 
p(z, wla, B) II BO II Bla) (20.26) 


m=1 


故 由 式 (20.20) 和 式 (20.26), 得 收缩 的 吉 布 斯 抽样 分 布 的 公式 


K B(nk+8) $ B(nm+a) 
p(z|w, a, 8) x 。 一 一 一 -一 (20.27) 
lI B(O) Il B(a) 
2. 满 条 件 分 布 的 表达 式 
分 布 p(z|w,a,B) 的 满 条 件 分 布 可 以 写成 
p(silz-i, W, a, B) = FPlalw,a, 8) (20.28) 


这 里 wi 表示 所 有 文本 的 单词 序列 的 第 i 个 位 置 的 单词 ，z; 表示 单词 wi 对 应 的 话 
题 , i = (m,n), i = 1,2,… I, ai = {z : j Ft}, Za 表示 分 布 p(z|w,a,PB) 对 变量 
zi 的 边缘 化 因子 。 式 (20.28) 是 在 所 有 文本 单词 序列 、 其 他 位 置 话题 序列 给 定 条 件 下 
第 i 个 位 置 的 话题 的 条 件 概 率 分 布 。 由 式 (20.27) 和 式 (20.28) 可 以 推出 


Nku + By Nmk + Ok 
p(zilZ—i, W, a, B) x = r 


> (nkv + bv) > (Mink + Ok) 


k=1 


(20.29) 


其 中 第 m 个 文本 的 第 m 个 位 置 的 单词 w 是 单词 集合 的 第 v 个 单词 , 其 话题 z; 是 话 
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题 集合 的 第 k 个 话题 , ney 表示 第 个 话题 中 第 wv 个 单词 的 计数 , 但 减 去 当前 单词 的 
计数 , nmx 表示 第 m 个 文本 中 第 个 话题 的 计数 , 但 减 去 当前 单词 的 话题 的 计数 。 


20.3.3 ”算法 的 后 处 理 


通过 吉 布 斯 抽样 得 到 的 分 布 p(zlw, a, B) 的 样本 ,可 以 得 到 变量 z 的 分 配 值 , 也 
可 以 估计 变量 9 和 y. 

1. BBO = {Om} 的 估计 

根据 LDA 模型 的 定义 , 后 验 概率 满足 


Nm 
CN = 元 TI 2(¢mn!m)P(Gml2) = Dir(Omlnm +a) (20.30) 
m n=1 
这 里 nm = {nmiynm2,… ,nmK} 是 第 m 个 文本 的 话题 的 计数 ，2Zo,。 表 示 分 布 
p(9m, Zmla) 对 变量 On 的 边缘 化 因子 。 于 是 得 到 参数 0 = {0m} 的 估计 式 


Ome = a ， m=1,2,---,M; k=1,2,---,K (20.31) 
5 (mk + Qk) 
k=1 
2. 参数 p = {pr} 的 估计 
后 验 概率 满足 
p(pklw, z, 8) = wie wil er) P(er|B) = Dir(prlng + 8 (20.32) 


Zor i=1 
XE ng = {nk mk2 mkv} 是 第 大 个 话题 的 单词 的 计数 , Zo, 表示 分 布 p(pk, wlz, 3) 
对 变量 wx 的 边缘 化 因子 , 7 是 文本 集合 单词 序列 w 的 单词 总 数 。 于 是 得 到 参数 的 估 
计 式 


Nku + By 


- , k=1,2,---,K; v=1,2,---,V (20.33) 
> ( (nko + By) 
v=1 


Prov = 


20.3.4 ”算法 
总 结 LDA 的 吉 布 斯 抽样 的 具体 算法 。 
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对 给 定 的 所 有 文本 的 单词 序列 w, 每 个 位 置 上 随机 指派 一 个 话题 , 整体 构成 所 有 
文本 的 话题 序列 z。 然 后 循环 执行 以 下 操作 。 
在 每 一 个 位 置 上 计算 在 该 位 置 上 的 话题 的 满 条 件 概率 分 布 , 然后 进行 随机 抽样 ， 
得 到 该 位 置 的 新 的 话题 , 分 派 给 这 个 位 置 。 


Nky + By Nmk + Qk 
è 
V K 


> (nru + Bv) > (nmk + ox) 
v=1 


k=1 


p(zilz-i, Ww, a, B) x 


这 个 条 件 概率 分 布 由 两 个 因子 组 成 , 第 一 个 因子 表示 话题 生成 该 位 置 的 单词 的 概率 ， 
第 二 个 因子 表示 该 位 置 的 文本 生成 话题 的 概率 。 

整体 准备 两 个 计数 矩阵 : 话题 -单词 矩阵 Nkxy = [rev] 和 文本 -话题 矩阵 
NMxK = [nmk]。 在 每 一 个 位 置 ,对 两 个 矩阵 中 该 位 置 的 已 有 话题 的 计数 减 1， 计 
算 满 条 件 概率 分 布 , 然后 进行 抽样 , 得 到 该 位 置 的 新 话题 , 之 后 对 两 个 矩阵 中 该 位 置 
的 新 话题 的 计数 加 1。 计算 移 到 下 一 个 位 置 。 

在 燃烧 期 之 后 得 到 的 所 有 文本 的 话题 序列 就 是 条 件 概 率 分 布 p(z|w,a,D) 的 
样本 。 

算法 20.2 (LDA 吉 布 斯 抽样 算法 ) 

输入 : 文本 的 单词 序列 w = {wiy… ;Wm Watts Wm = (Wmi, Wmns, 
Wm ); 

输出 : 文本 的 话题 序列 z= {21)… ，,zm ZM} Zm= (2m1; Zma 12mg, ) 
的 后 验 概率 分 布 p(zl|w, a, 6) 的 样本 计数 , 模型 的 参数 yp 和 0 Ht tL 

参数 : HSK a 和 6, 话题 个 数 K. 

(1) 设 所 有 计数 和 矩阵 的 元 素 nmk，mku， 计 数 向 量 的 元 素 rms nx 初 值 为 0; 

(2) 对 所 有 文本 wm, m= 1,2,…,M 

对 第 m 个 文本 中 的 所 有 单词 Wmr n= 1,2, ,Nm 


(a) 抽样 话题 zmn = ze ~ Mutt(Z); 


增加 文本 -话题 计数 mk = mmk 十 1， 
增加 文本 -话题 和 计数 nm = mm 十 1， 
增加 话题 -单词 计数 Nkv = Nkv +1, 
增加 话题 -单词 和 计数 nk = mk + 1; 
(3) 循环 执行 以 下 操作 , 直到 进入 燃烧 期 

对 所 有 文本 wm, m=1,2,---,M 

对 第 m 个 文本 中 的 所 有 单词 Wns n= 1,2,- ,Nm 

(a) 当前 的 单词 wmn 是 第 v 个 单词 , 话题 指派 zma 是 第 大 个 话题 ; 
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减少 计数 nmk = mk — 1) Nm = m — l> Ney = Ney —1 > Nk = Ng — 1; 


Cb) 按照 满 条 件 分 布 进行 抽样 
p(zilz-i, w, a, B) x 7 + By ` Be 十 ak 
mA Mev + By) >》 (Mmk + OK) 
v=1 bai 


得 到 新 的 第 k 个 话题 , 分 配给 zmn; 
Co) 增加 计数 nmk = mmk' +1) nm 二 nm 十 ly Nery = Nery 十 1，mk' 一 ni/ 十 1; 
(d) 得 到 更 新 的 两 个 计数 矩阵 Nkxv = [ne] 和 NwxK = [Nm] 表示 后 验 
概率 分 布 p(z|w,a, 8) 的 样本 计数 ; 
(4) 利用 得 到 的 样本 计数 ,计算 模型 参数 


Nmk + Qk 
Om = K 
>p (Nmk + Qk) 
k=1 
= Nkv + By 
Pkv = eo... 
> (nkv + By) 
v=1 


20.4 LDA 的 变 分 EM 算法 


本 节 首 先 介绍 变 分 推理 , 然后 介绍 变 分 EM 算法 , 最 后 介绍 将 变 分 EM 算法 应 用 
到 LDA 模型 学 习 的 具体 算法 。LDA 的 变 分 EM 算法 具有 推理 与 学 习 效 率 高 的 优点 。 


20.4.1 ” 变 分 推理 


变 分 推理 (variational inference) 是 贝 叶 斯 学 习 中 常用 的 、 含 有 隐 变 量 模型 的 学 习 
和 推理 方法 。 变 分 推理 和 马尔 可 夫 链 蒙特 卡 罗 法 (MCMC) 属于 不 同 的 技巧 。 MCMC 
通过 随机 抽样 的 方法 近似 地 计算 模型 的 后 验 概 率 ,， 变 分 推理 则 通过 解析 的 方法 计算 模 
型 的 后 验 概 率 的 近似 值 。 

变 分 推理 的 基本 想法 如 下 。 假设 模型 是 联合 概率 分 布 p(z,z)， 其 中 xz 是 观测 变 
E (数据 ), z 是 隐 变 量 , 包括 参数 。 目 标 是 学 习 模 型 的 后 验 概率 分 布 p(z|z)， 用 模型 
进行 概率 推理 。 但 这 是 一 个 复杂 的 分 布 , 直接 估计 分 布 的 参数 很 困难 。 所 以 考虑 用 概 
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率 分 布 qlz) 近似 条 件 概 率 分 布 p(z|z), 用 KL 散 度 D(q(z)|lp(z|z)) 计算 两 者 的 相似 
BE, q(z) 称 为 变 分 分 布 (variational distribution) 。 如 果 能 找到 与 p(z|z) 在 KL 散 度 
意义 下 最 近 的 分 布 gq*(z), 则 可 以 用 这 个 分 布 近似 p(z|z)。 


p(z|x) ~ q* (2) (20.34) 


图 20.6 给 出 了 q*(z) 与 p(zlz) 的 关系 。KL 散 度 的 定义 见 附录 EE。 
P(z|x) 


KL(q'(z)\| pE) 


图 20.6 ” 变 分 推理 的 原理 
KL 散 度 可 以 写成 以 下 形式 


D(a(z)llp(z|z)) = E; [log q(z)] — E; [log p(z|2)] 
= E; [log q(z)] — Eg llog p(z, z)] + log p(x) 
= log p(z) — {Ea [log p(z, z)] — Ea [log q(z)]} (20.35) 


注意 到 KL 散 度 大 于 等 于 零 ， 当 且 仅 当 两 个 分 布 一 致 时 为 零 , 由 此 可 知 式 (20.35) 
右 端 第 一 项 与 第 二 项 满足 关系 


log p(x) > By [log p(z, 2)] — £; [log q(2)] (20.36) 


不 等 式 右 端 是 左 端的 下 界 , 左 端 称 为 证 据 (evidence) ， 右 端 称 为 证 据 下 界 (evidence 
lower bound, ELBO) , 证 据 下 界 记 作 


L(q) = E; [log p(z, z)] — E; [log q(z)] (20.37) 


KL 散 度 (20.35) 的 最 小 化 可 以 通过 证 据 下 界 (20.37) 的 最 大 化 实现 ,因为 目标 是 
求 q(z) 使 KL 散 度 最 小 化 , 这 时 logp(z) 是 常量 。 因 此 , 变 分 推理 变 成 求解 证 据 下 界 
最 大 化 的 问题 。 
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变 分 推理 可 以 从 另 一 个 角度 理解 。 目标 是 通过 证 据 logp(z) 的 最 大 化 ,估计 联 
合 概率 分 布 p(z,z)。 因 为 含有 隐 变 量 2, 直接 对 证 据 进行 最 大 化 困难 ， 转 而 根据 式 
(20.36) 对 证 据 下 界 进行 最 大 化 。 

对 变 分 分 布 g(z) 要 求 是 具有 容易 处 理 的 形式 , 通常 假设 g(z) 对 z 的 所 有 分 量 都 
是 互相 独立 的 (实际 是 条 件 独立 于 参数 ), 即 满足 

d(z) = 4(21)q(Z2) +++ q(2n) (20.38) 

这 时 的 变 分 分 布 称 为 平均 场 (mean filed) ©. KL 散 度 的 最 小 化 或 证 据 下 界 最 大 化 实 
际 是 在 平均 场 的 集合 ， 即 满足 独立 假设 的 分 布 集合 @ = ele) = JJe} 之 中 
进行 的 。 
总 结 起 来 ， 变 分 推理 有 以 下 几 个 步骤 : 定义 变 分 分 布 9(z); 推导 其 证 据 下 界 表达 
式 ; 用 最 优化 方法 对 证 据 下 界 进行 优化 , 如 坐标 上 升 ， 得 到 最 优 分 布 g*(z)， 作 为 后 验 
分 布 p(z|z) 的 近似 。 


20.4.2 54 EM 算法 

变 分 推理 中 , 可 以 通过 办 代 的 方法 最 大 化 证 据 下 界 , 这 时 算法 是 EM 算法 的 推广 ， 
称 为 变 分 EM 算法 。 

假设 模型 是 联合 概率 分 布 p(x, z0) 其 中 z 是 观测 变量 ，z 是 隐 变 量 ，9 是 参数 。 
目标 是 通过 观测 数据 的 概率 (证据) log p(x|9) 的 最 大 化 ,估计 模型 的 参数 9。 使 用 变 
分 推理 ,导入 平均 场 g(z) = [] a(zi)> 定义 证 据 下 界 


i=1 


L(q,0) = Eqllog p(z, z|0)] — Eallog a(z)] (20.39) 


TRIER, AIDA q 和 9 为 变量 对 证 据 下 界 进行 最 大 化 , 就 得 到 变 分 EM 算法 。 
算法 20.3 〈 变 分 EM 算法 ) 

循环 执行 以 下 也 AIM P, 直到 收敛 。 

(1) 卫 步 : 固定 9, 求 L(g,9) 对 gq 的 最 大 化 。 

(2) M 步 : 固定 gq, KR L(a, 0) 对 9 的 最 大 化 。 


给 出 模型 参数 9 的 估计 值 。 n 
根据 变 分 推理 原理 , 观测 数 据 的 概率 和 证 据 下 界 满足 

log p(z|6) — L(g, 8) = D(g(z)llp(zlz, 0)) > 0 (20.40) 
© 平均 场 的 概念 最 初 来 自 物理 学 。 


404 第 20 章 ”潜在 狄 利克 雷 分 配 


变 分 EM 算法 的 迭代 过 程 中 ,以 下 关系 成 立 : 


log p(x|0—Y) = L(g, 0%) < L(q,0) < logp(z|0®) (20.41) 


其 中 上 角 标 +_ 1 和 表示 迭代 次 数 , 左边 的 等 式 基于 也 步 计算 和 变 分 推理 原理 ， 中 
间 的 不 等 式 基于 M 步 计算 , 右边 的 不 等 式 基于 变 分 推理 原理 。 说明 每 次 送 代 都 保证 现 
测 数据 的 概率 不 递减 。 因此， 变 分 EM 算法 一 定 收敛 , 但 可 能 收敛 到 局 部 最 优 。 

EM 算法 实际 也 是 对 证 据 下 界 进行 最 大 化 。 不 妨 对 照 94 节 EM 算法 的 扒 
广 , EM 算法 的 推广 是 求 下 函数 的 极 大 - 极 大 算法 , 其 中 的 函数 就 是 证 据 下 界 。 EM 算 
法 假设 g(z) = p(z|z) B plela) 容易 计算 ， 而 变 分 EM 算法 则 考虑 一 般 情况 使 用 容易 
计算 的 平均 场 g(z) = [J a()。 当 模型 复杂 时 ,EM 算法 未 必 可 用 , 但 变 分 EM 算法 仍 
然 可 以 使 用 。 = 


20.4.3 ”算法 推导 


将 变 分 EM 算法 应 用 到 图 20.7 的 LDA 模型 的 学 习 上 , 是 图 20.4 的 LDA 模型 的 
简化 。 首先 定义 具体 的 变 分 分 布 , 推导 证 据 下 界 的 表达 式 , 接着 推导 变 分 分 布 的 参数 
和 LDA 模型 的 参数 的 估计 式 , 最 后 给 出 LDA 模型 的 变 分 EM 算法 。 


K 


OT 一 加 


图 20.7 LDA 模型 


1. 证 据 下 界 的 定义 

为 简单 起 见 , 一 次 只 考虑 一 个 文本 , WE we 文本 的 单词 序列 w= (wm 
wnN)， 对 应 的 话题 序列 2 = (z1,… ,zn,… ,ZN)， 以 及 话题 分 布 8， 随机 变量 w, z 和 
9 的 联合 分 布 是 


N 
p(0,z, wla, 9) = p(gla) [I p(2nl8)p(wnlzn, p) (20.42) 


n=1 


其 中 w 是 可 观测 变量 , 9 All 是 隐 变 量 , a 和 是 参数 。 
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定义 基于 平均 场 的 变 分 分 布 


N 
al, zly, n) = aly) [| enlm) (20.43) 
n=1 
其 中 y 是 狄 利克 雷 分 布 参数 , n= (m,n Mn) 是 多 项 分 布 参数 , 变量 9 和 z 的 各 
个 分 量 都 是 条 件 独 立 的 。 目 标 是 求 KL 散 度 意义 下 最 相近 的 变 分 分 布 q0, zly, n) A 
近似 LDA 模型 的 后 验 分 布 p(9,z|w, aœ, p) 


图 20.8 是 变 分 分 布 的 板块 表示 。LDA 模型 中 隐 变 量 9 和 z 之 间 存 在 依存 关系 ， 
变 分 分 布 中 这 些 依存 关系 被 去 掉 , 变量 9 和 z 条 件 独立 。 


图 20.8 ”基于 平均 场 的 变 分 分 布 


3 此 得 到 一 个 文本 的 证 据 下 界 


L(Y,n, a, 9) = Eqllog p(8, z, wla, p)] — Eallog q(9, 2\y, n)] (20.44) 


其 中 数学 期 望 是 对 分 布 (0, zyn) 定义 的 , 为 了 方便 写作 By]. y 和 是 变 分 分 布 
的 参数 , a Aly Æ LDA 模型 的 参数 。 
所 有 文本 的 证 据 下 界 为 


M 
Lw(y,m 99) = X. {Ean llogp(Om, Zm, Wmla, Pp)] — Ean llog q(Om, Zr) Ym Tm It 


m=1 
(20.45) 


为 求解 证 据 下 界 L(y, 0,0, p) 的 最 大 化 , 首先 写 出 证 据 下 界 的 表达 式 。 为 此 展开 
证 据 下 界 式 (20.44) 


L(y, 0, &, 9) = Eqllog p(0|a)] + Eallogp(z|0)] + Eallogp(wlz, »)]— 


Eallog q(9|7)] — Eallog a(z|n)] (20.46) 
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根据 变 分 参数 y Fly, 模型 参数 a 和 yp 继续 展开 ,并 将 展开 式 的 每 一 项 写成 一 行 


K K K K 
L(7,7, aœ, p) = logT (Za) = >》 log P(ax) +5 ax = 1) [va k) — bg ae 
i=1 


l=1 k=1 k=1 
N K K 
wy bg 
n=1k=1 l=1 
N K V 
SOS mwg log pro— 
n=1 k=1 v=1 
K K K K 
log (> n) + Slog Px) — (x-1) fo -Y (> x)| - 
l=1 k=1 k=1 = 
N K 
DY nk logak (20.47) 
n=1 k=1 


AP (a,x) 是 对 数 伽 马 函数 的 导数 ， 即 


V(r) =Z log Tax) (20.48) 


第 一 项 推导 , Ae E [log p(9|a)], 是 关于 分 布 q0, zyn) 的 数学 期 望 。 


K K K 
E; [log p(6|a)| 三 》 ( ok — 1)E, [log 8k] + log I (>: «) 一 > log P(ax) (20.49) 
=1 


k=1 l=1 


其 中 9 ~ Dir(9|y), 所 以 利用 附录 马 式 (E.7) 有 


Eaoly) [log Ok] = 9-2 (> n) (20.50) 


故 得 
K 


E, {log p(0|a)] = log I (> «) 一 > log P(ax) + 5 (ak — 1) 
k=1 k=1 


l=1 


Il 
m 


K 
VY) -Y (> n) 
5 


式 中 ak Ay 表示 第 个 话题 的 狄 利克 雷 分 布 参数 。 
第 二 项 推导 , R Bllogp(z|0)]， 是 关于 分 布 a(0,z|y,7) 的 数学 期 望 。 
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N 
E,(log p(2|9)) = 》 Es llogp(zn|0)] 


n=1 


i 
Mz 


Eq(6,2n\10) og (2n|9)] 


3 
I 
fay 


I 
mM: 


gq(znk|n) Ea(oly) log 9x] 


Mnk 


Il 
Mz i 
Ms IMs 


U(x) 一 "(> x)| (20.52) 


式 中 tink 表示 文档 第 n 个 位 置 的 单词 由 第 个 话题 产生 的 概率 , ye 表示 第 大 个 话题 
的 狄 利克 雷 分 布 参数 。 最 后 一 步 用 到 附录 EE 式 (E.4)。 


第 三 项 推导 , 求 E logp(wlz, wp)]， 是 关于 分 布 9(9, ziy, 0) 的 数学 期 望 。 


3 
Il 
已 
od 
ll 
= 


N 
E {log p(wlz, 9)] = > Ey [log p(wnlzns p)] 


E ‘q(zn|n) [log P(Wnlzn; o)l 


M i 


3 
I 
= 


iM 
Ma IMs 


Ms 


q(2nk|7) log p(wn|znk, 9) 


Mz 


MnkWn log Pkv (20.53) 


3 
Il 
m 
fog 

Il 
fan 
e 
I 
f= 


式 中 tink 表示 文档 第 ”个 位 置 的 单词 由 第 k 个 话题 产生 的 概率 , wh 在 第 ”个 位 置 的 
单词 是 单词 集合 的 第 v 个 单词 时 取 值 为 1, 否则 取 值 为 0, px 表示 第 大 个 话题 生成 单 
词 集合 中 第 v 个 单词 的 概率 。 


第 四 项 推导 , 求 E [log g(9|y)]， 是 关于 分 布 q0, zyn) 的 数学 期 望 。 由 于 
y)» 类 似 式 (20.50) 可 以 得 到 


K K K 
log q(0|7)] = log (>) -X log ly) + 32% - 1) | CO) 一 ($x) 
k=1 k=1 


t=1 


T 
D 
2 


Di 


x 
SS 


a 


(20.54) 


AP 和 x 表示 第 个 话题 的 狄 利克 雷 分 布 参数 。 
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第 五 项 公式 推导 , K E [log g(z|m)]， 是 关于 分 布 q(9,z|y,m) 的 数学 期 望 。 
N 


E {log q(z|n)] = >》 Ea [log q(zn|m)] 


n=1 
N 
= 2 Eann llog q(zn|n)] 


N K 
= 》 Y alzneln) log q(zntln) 
k= 


N K 
= D bD Mnk log Mnk (20.55) 


式 中 nan 表示 文档 第 ”个 位 置 的 单词 由 第 k 个 话题 产生 的 概率 ，? 表示 第 k 个 话题 
的 狄 利克 雷 分 布 参数 。 

2. BASA y 和 的 估计 

首先 通过 证 所 下 界 最 优化 信 计 参数 .mk 表示 第 个 位 置 的 单词 是 由 第 大 个 话 
题 生 成 的 概率 。 考 虑 式 (20.47) 关于 ms 的 最 大 化 ,mk MEARE SO i = 1 包 
A nnr 的 约束 最 优化 问题 拉 格 朗 日 函数 为 


K K 
Linux] = "nk een) =o (> x)| + Mnk log ko — Mnk log Mnk + An (> Mmi 一 1) 
l=1 l=1 
(20.56) 
这 里 pk, 是 (在 第 n 个 位 置 ) 由 第 个 话题 生成 第 v 个 单词 的 概率 。 
对 nne 求 偏 导数 得 
aL 7 
jonas Y (yn) -Y (> 可 + log pkv — log Mnk — 1 + An (20.57) 
ý l=1 


令 偏 导数 为 零 , 得 到 参数 nne 的 估计 值 
K 
Tmk X Pkv EXP (row -Y0 (> 可 ) (20.58) 
l=1 


接着 通过 证 据 下 界 最 优化 估计 参数 y。 是 第 k 个 话题 的 狄 利克 雷 分 布 参数 。 考 
A (20.47) 关于 yk 的 最 大 化 
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K 
Lm = 90 (ox — 1) 
k=1 


vd) Ebel Eh 


n=1k=1 


logT (> J. + logT (y) 一 > (mm — 1) bow- (> x)| (20.59) 


简化 为 
K N K 

Lin) = » P(w) 一 "(> x)| (a + So tink = n) 一 logT (> x) + logT(yx) 
k=1 n=1 l=1 


(20.60) 
对 ye 求 偏 导数 得 
ar K N 
go a (>: x)| (a +> mak — n) (20.61) 
t=1 n=1 


令 偏 导 数 为 零 , 求解 得 到 参数 ye 的 估计 值 
Yk = Ok + > Mnk (20.62) 


据 此 , 得 到 由 坐标 上 升 算法 估计 变 分 参数 的 方法 , 具体 算法 如 下 。 
算法 20.4 (LDA 的 变 分 参数 估计 算法 ) 
(1) 初始 化 : 对 所 有 大 和 mu n® =1/K 
(2) 初始 化 : 对 所 有 k» Yk = ak + N/K 


(3) 重复 
(4) 对 n=1 到 NN 
(5) 对 k=1 到 KK 
(6) NY = prv exp een) - (> )) 
(7) HEME A 使 其 和 为 1 
N 
(8) 74) =at+ 5 nt) 
n=1 
(9) 直到 收敛 L 


3. 模型 参数 a 和 y 的 估计 
给 定 一 个 文本 集合 D = {wi,… , wm,… , wM}， 模型 参数 估计 对 所 有 文本 同时 
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首先 通过 证 据 下 界 的 最 大 化 估计 po pro 表示 第 个 话题 生成 单词 集合 第 v 个 单 
词 的 概率 。 将 式 (20.47) 扩展 到 所 有 文本 , 并 考虑 关于 p 的 最 大 化 。 满足 K 个 约束 条 件 


V 
Yo tip, k=1,2,..,K 
约束 最 优化 问题 的 拉 格 朗 日 函数 为 
M Nm K V 
Lay = >> X Y tmnk whan log prv + 3 Ye (> Prv 一 (20.63) 


m=1n=1k=1v=1 


对 pro 求 偏 导数 并 令 其 为 零 , 归 一 化 求解 ,得 到 参数 pk 的 估计 值 


M Nm 
Prv = X > Mmnk Winn (20.64) 


m=l1n=1 
其 中 tink 为 第 mm 个 文本 的 第 nn 个 单词 属于 第 个 话题 的 概率 , wen 在 第 m 个 文本 
的 第 n 个 单词 是 单词 集合 的 第 v 个 单词 时 取 值 为 1, 否则 为 0。 
接着 通过 证 据 下 界 的 最 大 化 估计 参数 a. ak 表示 第 k 个 话题 的 狄 利克 雷 分 布 参 
数 。 将 式 (20.47) 扩展 到 所 有 文本 , 并 考虑 关于 a 的 最 大 化 
(mk) — "(> vn) 


Lia= 5 fier (>) “are a1) +) ou 1) |v 


m=1 


(20.65) 
对 ax 求 偏 导数 得 
ðL K M K 
Ja; 7M | (>: a) - ve +>> Pom 一 本 (> vm) (20.66) 
tet m=1 l=1 
再 对 a 求 偏 导数 得 
PL x 
Jarðar ue (> a) = seo" (20.67) 


这 里 O(k, 1) 是 delta 函数 。 

IÑ (20.65) 和 式 (20.66) 分 别 是 函数 (20.64) 对 变量 a 的 梯度 g(a) 和 Hessian 4E 
KE H (a). 应 用 牛顿 法 (又 称 为 牛顿 - 拉 弗 森 方法 ) 求 该 函数 的 最 大 化 中 。 用 以 下 公式 和 迭 
代 , 得 到 参数 a 的 估计 值 。 

O 牛顿 法 的 介绍 可 参照 附录 B- 


Qnew = Qold 一 H (aoa) g(aoa) (20.68) 


据 此 , 得 到 估计 参数 a 的 算法 。 


20.44 BAERS 


根据 上 面 的 推导 给 出 LDA 的 变 分 EM 算法 。 
算法 20.5 (LDA 的 变 分 EM 算法 ) 
输入 : 给 定 文本 集合 D = {wi,… ,wm,… ,WM}; 
输出 : 变 分 参数 7，7,， 模 型 参数 a, po 
交替 迭代 也 AM 步 , 直到 收敛 。 
(DEL 
固定 模型 参数 a,y, 通过 关于 变 分 参数 y 7 的 证 据 下 界 的 最 大 化 , 估计 变 分 参 
Ry, m。 具 体 见 算法 20.4. 
(2) M 步 
固定 变 分 参数 y, n 通过 关于 模型 参数 a, yp 的 证 据 下 界 的 最 大 化 ,估计 模型 参 
Blas p。 具 体 算法 见 式 (20.63) 和 式 (20.67)。 
根据 变 分 参数 (yn) 可 以 估计 模型 参数 9 = (01,… ,Om,… ,0M),z = (z1,…， 
Zm BM)s a 
以 上 介绍 的 是 图 20.7 中 简化 LDA 模型 的 变 分 EM 算法 , 图 20.4 中 完整 LDA 模 
型 的 变 分 EM 算法 作为 推广 可 以 类 似 的 导出 。 


本 章 概 要 
1. 狄 利克 雷 分 布 的 概率 密度 函数 为 


k 
(Sa) k 
pla) = = JT ee 
i=1 


k 


T[r@) * 


i=1 


其 中 》 60; = 1, 9; > 0, a= (01,02: ,Qk)， ai > 0, i 二 1,2,… ,k。 狄 利克 雷 分 布 
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2. 潜在 狄 利克 雷 分 配 (LDA) 是 文本 集合 的 生成 概率 模型 。 模型 假设 话题 由 单词 
的 多 项 分 布 表示 , 文本 由 话题 的 多 项 分 布 表示 ,单词 分 布 和 话题 分 布 的 先 验 分 布 都 是 
狄 利克 雷 分 布 。LDA 模型 属于 概率 图 模型 , 可 以 由 板块 表示 法 表示 。 LDA 模型 中 , 每 
个 话题 的 单词 分 布 、 每 个 文本 的 话题 分 布 、 文本 的 每 个 位 置 的 话题 是 隐 变 量 , 文本 的 
每 个 位 置 的 单词 是 观测 变量 。 

3. LDA 生成 文本 集合 的 生成 过 程 如 下 : 

(1) 话题 的 单词 分 布 ; 随机 生成 所 有 话题 的 单词 分 布 , 话题 的 单词 分 布 是 多 项 分 
布 , 其 先 验 分 布 是 狄 利克 雷 分 布 。 

(2) 文本 的 话题 分 布 : 随机 生成 所 有 文本 的 话题 分 布 , 文本 的 话题 分 布 是 多 项 分 
布 , 其 先 验 分 布 是 狄 利克 雷 分 布 。 

(3) 文本 的 内 容 : 随机 生成 所 有 文本 的 内 容 。 在 每 个 文本 的 每 个 位 置 ， 按照 文本 的 
话题 分 布 随机 生成 一 个 话题 ， 再 按照 该 话题 的 单词 分 布 随机 生成 一 个 单词 。 

4. LDA 模型 的 学 习 与 推理 不 能 直接 求解 。 通 常 采用 的 方法 是 吉 布 斯 抽样 算法 和 
变 分 EM 算法 ,前 者 是 蒙特 卡 罗 法 而 后 者 是 近似 算法 。 

5. LDA 的 收缩 的 吉 布 斯 抽样 算法 的 基本 想法 如 下 。 目 标 是 对 联合 概率 分 布 
p(w, 2,0, pla, B) 进行 估计 。 通 过 积分 求 和 将 隐 变 量 9 和 消 掉 ， 得 到 边缘 概率 分 
布 p(w,zla, p); 对 概率 分 布 p(wl|z,a,B) 进行 吉 布 斯 抽样 ， 得 到 分 布 p(wlz,a,B) 的 
随机 样本 ; 再 利用 样本 对 变量 2, 9 和 的 概率 进行 估计 ,最终 得 到 LDA 模型 
p(w,z,0, ela, B) 的 参数 估计 。 具 体 算法 如 下 。 对 给 定 的 文本 单词 序列 ， 每 个 位 置 上 随 
机 指派 一 个 话题 , 整体 构成 话题 系列 。 然 后 循环 执行 以 下 操作 。 对 台 个 文本 序列 进行 
扫描 , 在 每 一 个 位 置 上 计算 在 该 位 置 上 的 话题 的 满 条 件 概率 分 布 , 然后 进行 随机 抽样 
得 到 该 位 置 的 新 的 话题 , 指派 给 这 个 位 置 。 


6. 变 分 推理 的 基本 想法 如 下 。 假 设 模型 是 联合 概率 分 布 ple, z), 其 中 zx 是 观测 
变量 (数据 )，z 是 隐 变 量 。 目 标 是 学 习 模型 的 后 验 概率 分 布 p(z|z)。 考 虑 用 变 分 分 布 
Q(z) 近似 条 件 概率 分 布 p(z|z), 用 KL 散 度 计算 两 者 的 相似 性 找到 与 p(z|z) 在 KL 散 
度 意义 下 最 近 的 gq*(z)， 用 这 个 分 布 近似 p(z|z)。 假设 q(z) 中 的 z 的 所 有 分 量 都 是 互 
相 独立 的 。 利 用 Jensen 不 等 式 , 得 到 KL 散 度 的 最 小 化 可 以 通过 证 据 下 界 的 最 大 化 实 
现 。 因此 , 变 分 推理 变 成 求解 以 下 证 据 下 界 最 大 化 问题 : 


L(q,0) = Eallogp(z, 2|0)] — Eq [log a(z)] 


7. LDA 的 变 分 EM 算法 如 下 。 针 对 LDA 模型 , 定义 变 分 分 布 , 应 用 变 分 EM 算 
法 。 目标 是 对 证 据 下 界 Lyna p) 进行 最 大 化 , 其 中 a 和 wp 是 模型 参数 , y Aly 是 
变 分 参数 。 TEER E PAM 步 , 直到 收敛 。 
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DES: 固定 模型 参数 a, p, 通过 关于 变 分 参数 y, 7 的 证 据 下 界 的 最 大 化 , 估 


计 变 分 参数 y, ne 


(2) M 步 : 固定 变 分 参数 y, n 通过 关于 模型 参数 a, p 的 证 据 下 界 的 最 大 化 , 估 


计 模 型 参数 a, po 


继续 阅读 


LDA 的 原始 论文 是 文献 [1, 2], LDA 的 吉 布 斯 抽样 算法 见 文献 [3~5], 变 分 EM 算 


法 见 文 献 [2]。 变 分 推理 的 介绍 可 参考 文献 [6]。LDA 的 分 布 式 学 习 算 法 有 文献 [7], 快 
速 学 习 算法 有 文献 [8], 在 线 学 习 算 法 有 文献 [9]。 


习题 


20.1 推导 狄 利克 雷 分 布 数学 期 望 公式 。 

20.2 针对 17.2.2 的 文本 例子 , 使 用 LDA 模型 进行 话题 分 析 。 

20.3 $R LDA 的 吉 布 斯 抽样 算法 、 变 分 EM 算法 中 利用 到 狄 利克 雷 分 布 的 部 
思考 LDA 中 使 用 狄 利克 雷 分 布 的 重要 性 。 

20.4 给 出 LDA 的 吉 布 斯 抽样 算法 和 变 分 EM 算法 的 算法 复杂 度 。 

20.5 证 明 变 分 EM 算法 收敛 。 
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第 21 章 PageRank 算法 


在 实际 应 用 中 许多 数据 都 以 图 (graph) 的 形式 存在 , 比如 , 互联 网 、 社 交 网 络 都 可 
以 看 作 是 一 个 图 。 图 数据 上 的 机 器 学 习 具 有 理论 与 应 用 上 的 重要 意义 。PageRank 算 
法 是 图 的 链接 分 析 Aink analysis) 的 代表 性 算法 , 属于 图 数据 上 的 无 监督 学 习 方法 。 

PageRank 算法 最 初 作 为 互联 网 网 页 重要 度 的 计算 方法 ,1996 年 由 Page 和 Brin 
提出 , 并 用 于 谷歌 搜索 引擎 的 网 页 排序 。 事实 上 ,PageRank 可 以 定义 在 任意 有 向 图 
E, 后 来 被 应 用 到 社会 影响 力 分 析 、 文本 摘要 等 多 个 问题 。 

PageRank 算法 的 基本 想法 是 在 有 向 图 上 定义 一 个 随机 游 走 模型 ， 即 一 阶 马尔 
可 夫 链 ,描述 随机 游 走 者 沿 着 有 向 图 随机 访问 各 个 结 点 的 行为 。 在 一 定 条 件 下 , 极 
限 情况 访问 每 个 结 点 的 概率 收敛 到 平稳 分 布 , 这 时 各 个 结 点 的 平稳 概率 值 就 是 其 
PageRank 值 , 表示 结 点 的 重要 度 。PageRank 是 递归 定义 的 ， PageRank 的 计算 可 以 
通过 迭代 算法 进行 。 

本 章 21.1 节 给 出 PageRank 的 定义 , 21.2 WRG PageRank 的 计算 方法 , 包括 常 
用 的 震 法 (power method) 。 


21.1 PageRank 的 定义 


21.1.1 基本 想法 


历史 上 , PageRank 算法 作为 计算 互联 网 网 页 重要 度 的 算法 被 提出 。 PageRank 是 
定义 在 网 页 集合 上 的 一 个 函数 , 它 对 每 个 网 页 给 出 一 个 正 实数 , 表示 网 页 的 重要 程度 ， 
整体 构成 一 个 向 量 , PageRank 值 越 高 , 网 页 就 越 重要 , 在 互联 网 搜索 的 排序 中 可 能 就 
被 排 在 前 面 中 。 

假设 互联 网 是 一 个 有 向 图 , 在 其 基础 上 定义 随机 游 走 模型 ， 即 一 阶 马 尔 可 夫 链 ， 
表示 网 页 浏览 者 在 互联 网 上 随机 浏览 网 页 的 过 程 。 假 设 浏览 者 在 每 个 网 页 依照 连接 出 


© 网 页 在 搜索 引擎 上 的 排序 , 除了 网 页 本 身 的 重要 度 以 外 , 还 由 网 页 与 查询 的 匹配 度 决 定 。 在 互联 网 
搜索 中 , 网 页 的 PageRank 与 查询 无 关 , 可 以 事先 离线 计算 ,加 入 网 页 索引 。 
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去 的 超 链接 以 等 概率 跳 转 到 下 一 个 网 页 ， 并 在 网 上 持续 不 断 进行 这 样 的 随机 跳 转 , 这 
个 过 程 形成 一 阶 马尔 可 夫 链 。PageRank 表示 这 个 马尔 可 夫 链 的 平稳 分 布 。 每 个 网 页 
的 PageRank 值 就 是 平稳 概率 。 

图 21.1 表示 一 个 有 向 图 , 假设 是 简化 的 互联 网 例 , 结 点 A, B, CM DRAW, 
AL RAMARRI R LINEE 边 上 的 权 值 表示 网 页 之 间 随 机 跳 转 的 概 
。 假 设 有 一 个 浏览 者 , 在 网 上 随机 游 走 。 如 果 浏 览 者 在 网 页 4, 则 下 一 步 以 1/3 的 
EKREANJ B, C ¢ D., MRA AAEM B, 则 下 一 步 以 1/2 的 概率 转移 到 网 
页 4 和 DD。 如 果 浏览 者 在 网 页 C, 则 下 一 步 以 概率 1 转移 到 网 页 4。 如 果 浏 览 者 在 网 
KD, 则 下 一 步 以 1/2 的 概率 转移 到 网 页 BB 和 C。 


a i oS 


1/2 


OY 


21.1 ”有 向 图 


直观 上 , 一 个 网 页 ， 如 果 指 向 该 网 页 的 超 链接 越 多 , 随机 跳 转 到 该 网 页 的 概率 也 
就 越 高 , 该 网 页 的 PageRank 值 就 越 高 , 这 个 网 页 也 就 越 重 要 。 一 个 网 页 , 如 果 指 向 该 
网 页 的 PageRank 值 越 高 ,， 随机 跳 转 到 该 网 页 的 概率 也 就 越 高 , 该 网 页 的 PageRank 
值 就 越 高 , 这 个 网 页 也 就 越 重要 。PageRank 值 依赖 于 网 络 的 拓扑 结构 , 一 旦 网 络 的 拓 
Fh (连接 关系 ) Wi, PageRank 值 就 确定 。 

PageRank 的 计算 可 以 在 互联 网 的 有 向 图 上 进行 , 通常 是 一 个 迭代 过 程 。 先 假设 一 
个 初始 分 布 , 通过 和 迭代, 不断 计算 所 有 网 页 的 PageRank (A, 直到 收敛 为 止 。 

下 面 首先 给 出 有 向 图 及 有 向 图 上 随机 游 走 模 型 的 定义 , 然后 给 出 PageRank 的 基 
本 定义 ;以 及 PageRank 的 一 般 定义 。 基 本 定义 对 应 于 理想 情况 , 一 般 定义 对 应 于 现 
实情 况 。 


21.1.2 ”有 向 图 和 随机 游 走 模型 


1. 有 向 图 
定义 21.1 (有 向 图 ) ”有 向 图 ( directed graph) itv G = (V, E), HPV E 
分 别 表 示 结 点 和 有 向 边 的 集合 。 
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比如 , 互联 网 就 可 以 看 作 是 一 个 有 向 图 , 每 个 网 页 是 有 向 图 的 一 个 结 点 , 网 页 之 
间 的 每 一 条 超 链 接 是 有 向 图 的 一 条 边 。 

从 一 个 结 点 出 发 到 达 另 一 个 结 点 , 所 经 过 的 边 的 一 个 序列 称 为 一 条 路 径 (path) ， 
路 径 上 边 的 个 数 称 为 路 径 的 长 度 。 如 果 一 个 有 向 图 从 其 中 任何 一 个 结 点 出 发 可 以 到 达 
其 他 任何 一 个 结 点 , 就 称 这 个 有 向 图 是 强 连通 图 (strongly connected graph) 。 图 21.1 
中 的 有 向 图 就 是 一 个 强 连通 图 。 
假设 是 一 个 大 于 1 的 自然 数 , 如 果 从 有 向 图 的 一 个 结 点 出 发 返回 到 这 个 结 点 的 
路 径 的 长 度 都 是 的 倍数 ,那么 称 这 个 结 点 为 周期 性 结 点 。 如 果 一 个 有 向 图 不 含有 周 
PES A, 则 称 这 个 有 向 图 为 非 周期 性 图 (aperiodic graph), TWA AIHER. 

图 21.2 是 一 个 周期 性 有 向 图 的 例子 。 从 结 点 4 出 发 返回 到 A, 必须 经 过 路 径 
A-B-C—A, 所 有 可 能 的 路 径 的 长 度 都 是 3 的 倍数 , 所 以 结 点 A 是 周期 性 结 点 。 
这 个 有 向 图 是 周期 性 图 。 


Q © © 


图 21.2 ”周期 性 有 向 图 


2. 随机 游 走 模型 

定义 21.2 〈 随 机 游 走 模型 ) ”给 定 一 个 含有 nn 个 结 点 的 有 向 图 ， 在 有 向 图 上 定 
义 随机 游 走 (random walk ) 模型 ， 即 一 阶 马 尔 可 夫 链 四 ， 其 中 结 点 表示 状态 ， 有 向 边 
表示 状态 之 间 的 转移 ， 假 设 从 一 个 结 点 到 通过 有 向 边 相 连 的 所 有 结 点 的 转移 概率 相 
等 . 具体 地 ,转移 矩阵 是 一 个 n BME M 


M = [mijlaxn (21.1) 


Ri 行 第 了 列 的 元 素 mi; 取 值 规则 如 下 : 如 果 结 点 了 有 RAM MVE, HORI 
是 其 连 出 的 一 个 结 点 ， 则 mij = 5; 否则 mij =0, ij =1,2, ,7m。 
注意 转移 矩阵 具有 性 质 : 


Mij 20 (21.2) 
So mi =] (21.3) 
i=1 


@ 马尔 可 夫 链 的 介绍 可 参照 第 19 章 。 
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即 每 个 元 素 非 负 , 每 列 元 素 之 和 为 1, 即 矩 阵 M 为 随机 和 矩阵 (stochastic matrix) 。 

在 有 向 图 上 的 随机 游 走 形成 马尔 可 夫 链 。 也 就 是 说 , 随机 游 走 者 每 经 一 个 单位 时 
间 转 移 一 个 状态 , 如 果 当 前 时 刻 在 第 ; 个 结 点 (状态 ), 那么 下 一 个 时 刻 在 第 i 个 结 
点 (状态 ) 的 概率 是 mij, 这 一 概率 只 依赖 于 当前 的 状态 , 与 过 去 无 关 , 具有 马尔 可 
夫 性 。 

在 图 21.1 的 有 向 图 上 可 以 定义 随机 游 走 模型 。 结 点 A 到 结 点 B, C 和 存在 有 
向 边 , 可 以 以 概率 1/3 从 4 分 别 转移 到 B, CAD, 并 以 概率 0 转移 到 A, 于 是 可 以 
写 出 转移 矩阵 的 第 1 列 。 结 点 B 到 结 点 4 和 DD 存在 有 向 边 , 可 以 以 概率 1/2 A B 3 
别 转移 到 A 和 D, 并 以 概率 0 分 别 转移 到 BAC, 于 是 可 以 写 出 矩阵 的 第 2 列 。 等 
等 。 于 是 得 到 转移 矩阵 


0 1/721 0 
1/3 0 0 1/2 
1/3 0 0 1/2 
1/3 1/2 0 0 


M= 


随机 游 走 在 某 个 时 刻 t 访问 各 个 结 点 的 概率 分 布 就 是 马尔 可 夫 链 在 时 刻 t 的 状态 
分 布 , 可 以 用 一 个 n 维 列 向 量 R 表示 , 那么 在 时 刻 t 十 1 访问 各 个 结 点 的 概率 分 布 

Ri+1 满足 
Riu = MR; (21.4) 


21.1.3 PageRank 的 基本 定义 


给 定 一 个 包含 n 个 结 点 的 强 连 通 且 非 周期 性 的 有 向 图 , 在 其 基础 上 定义 随机 游 走 
模型 。 假 设 转移 矩阵 为 M, ERZI 0,1,2,… ,t,… 访问 各 个 结 点 的 概率 分 布 为 


Ro, MRo, M?Ro, ---, M*Ro, += 


则 极限 
jim M'Ro =R (21.5) 


存在 , 极限 向 量 R 表示 马尔 可 夫 链 的 平稳 分 布 , 满足 


MR=R 


定义 21.3 (PageRank 的 基本 定义 ) ”给 定 一 个 包含 nn 个 结 点 v1,v2,… ,vn 的 
强 连通 且 非 周期 性 的 有 向 图 ， 在 有 向 图 上 定义 随机 游 走 模型 ， 即 一 阶 马尔 可 夫 链 。 随 
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机 游 走 的 特点 是 从 一 个 结 点 到 有 有 向 边 连 出 的 所 有 结 点 的 转移 概率 相等 ， 转 移 矩 阵 为 
M. 这 个 马尔 可 夫 链 具有 平稳 分 布 R 


MR=R (21.6) 
平稳 分 布 尺 称 为 这 个 有 向 图 的 PageRank. 民 的 各 个 分 量 称 为 各 个 结 点 的 PageRank 值 。 
PR(v1) 

PR(v2) 
PR(vn) 


其 中 PR(v;), i=1,2, ,n, 表示 结 点 vi 的 PageRank 值 。 


显然 有 
PR(v;) >20, i=1,2,.…,n (21.7) 
> PR(u)=1 (21.8) 
i=1 
PR(v;) . 
PR(vi) = 下 21.9 
(vi) oes tr? ' n (21.9) 


这 里 M(uw) 表示 指向 结 点 vi 的 结 点 集合 , Luj) 表示 结 点 v; 连 出 的 有 向 边 的 个 数 。 


PageRank 的 基本 定义 是 理想 化 的 情况 , 在 这 种 情况 下 ,PageRank 存在 , 而 且 可 
以 通过 不 断 迭 代 求 得 PageRank 值 。 


定理 21.1 不 可 约 且 非 周期 的 有 限 状 态 马 尔 可 夫 链 ， 有 唯一 平稳 分 布 存在 ， 并 且 
当时 间 趋 于 无 穷 时 状态 分 布 收敛 于 唯一 的 平稳 分 布 。 


根据 马尔 可 夫 链 平稳 分 布 定理 , 强 连通 且 非 周期 的 有 向 图 上 定义 的 随机 游 走 模 
型 (马尔 可 夫 链 ), 在 图 上 的 随机 游 走 当时 间 趋 于 无 穷 时 状态 分 布 收敛 于 唯一 的 平稳 
分 布 。 


例 21.1 已 知 图 21.1 的 有 向 图 , 求 该 图 的 PageRank. © 
解 ”转移 矩阵 


@ 例 21.1 和 例 21.2 来 自 于 文献 [2]。 


420 


第 21 章 PageRank 算法 


0 
1/3 


1/3 
取 初 始 分 布 向 量 Ro 为 


1/2 
0 
0 

1/2 


1/4 
1/4 
1/4 
1/4 


以 转移 矩阵 M 连 乘 初始 向 量 Ro 得 到 向 量 序列 


1/4 9/24 15/48 
1/4 5/24 11/48 
1/4 | | 5/24 [|° | 11/48 
1/4 5/24 11/48 
最 后 得 到 极限 向 量 
即 有 向 图 的 PageRank 值 。 


3/9 
2/9 
2/9 
2/9 


rrr a N y 


3/9 
2/9 
2/9 
2/9 


一 般 的 有 向 图 未 必 满 足 强 连通 且 非 周期 性 的 条 件 。 比 如 , 在 互联 网 ， 大 部 分 网 页 
没有 连接 出 去 的 超 链接 ,也 就 是 说 从 这 些 网 页 无 法 跳 转 到 其 他 网 页 。 所 以 PageRank 


的 基本 定义 不 适用 。 


例 21.2 从 图 21.1 的 有 向 图 中 去 掉 由 C 到 4 的 边 , 得 到 图 21.3 的 有 向 图 。 在 


图 21.3 的 有 向 图 中 , 结 点 C 没有 边 连 接 出 去 。 


图 21.3 


有 向 图 
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图 21.3 的 有 向 图 的 转移 矩阵 M 是 


0 1/2 0 0 
1/3 0 0 1/2 
Po / 
1/3 0 0 1/2 
1/3 1/2 0 0 


这 时 M 不 是 一 个 随机 矩阵 ， 因 为 随机 矩阵 要 求 每 一 列 的 元 素 之 和 是 1, 这 里 第 3 
列 的 和 是 0, 不 是 1。 


如 果 仍 然 计 算 在 各 个 时 刻 的 各 个 结 点 的 概率 分 布 , 就 会 得 到 如 下 结果 


1/4 3/24 5/48 21/288 0 
1/4 5/24 7/48 31/288 0 
14| |524| | 7/48}? | 31/288 > |o 
1/4 5/24 7/48 31/288 0 
可 以 看 到 , 随 着 时 间 推 移 , 访问 各 个 结 点 的 概率 皆 变 为 0。 E 


21.1.4 PageRank 的 一 般 定义 


PageRank 一 般 定义 的 想法 是 在 基本 定义 的 基础 上 导入 平滑 项 。 


给 定 一 个 含有 个 结 点 vi, i = 1,2,… ,n, 的 任意 有 向 图 , 假设 考虑 一 个 在 图 上 
随机 游 走 模型 ， 即 一 阶 马 尔 可 夫 链 ， 其 转移 矩阵 是 M， 从 一 个 结 点 到 其 连 出 的 所 有 结 
点 的 转移 概率 相等 。 这 个 马尔 可 夫 链 未 必 具 有 平稳 分 布 。 假 设 考虑 另 一 个 完全 随机 游 
走 的 模型 ， 其 转移 矩阵 的 元 素 全 部 为 1/n, 也 就 是 说 从 任意 一 个 结 点 到 任意 一 个 结 点 
的 转移 概率 都 是 1/n。 两 个 转移 矩阵 的 线性 组 合 又 构成 一 个 新 的 转移 矩阵 , 在 其 上 可 
以 定义 一 个 新 的 马尔 可 夫 链 。 容 易 证 明 这 个 马尔 可 夫 链 一 定 具有 平稳 分 布 ， 且 平稳 分 
布 满足 


l= 
R=dMR+*—"y (21.10) 


式 中 d(0 < d < 1) 是 系数 , 称 为 阻尼 因子 (damping factor) , R Æ n 维 向 量 , 1 是 所 
有 分 量 为 1 的 n EE. R 表示 的 就 是 有 向 图 的 一 般 PageRank. 
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PR(v1) 
ie PRU) 


PR(vn) 
PR(v;), i=1,2, ,n, 表示 结 点 vi 的 PageRank 值 。 
式 (21.10) 中 第 一 项 表示 (状态 分 布 是 平稳 分 布 时 ) 依照 转移 矩阵 M 访问 各 个 结 
点 的 概率 , 第 二 项 表示 完全 随机 访问 各 个 结 点 的 概率 。 阻 尼 因 子 d 取 值 由 经 验 决 定 ， 
例如 a = 0.85。 当 4 接近 1 时 , 随机 游 走 主 要 依照 转移 矩阵 M 进行 ; 当 d 接近 0 时 ， 
随机 游 走 主 要 以 等 概率 随机 访问 各 个 结 点 。 
可 以 由 式 (21.10) 写 出 每 个 结 点 的 PageRank, 这 是 一 般 PageRank 的 定义 。 


wt T 


oa- D a) «8 i=1,2, -n (21.11) 


这 里 M (v) 是 指向 结 点 vi 的 结 点 集合 , L(v;) 是 结 点 v; 连 出 的 边 的 个 数 。 
第 二 项 称 为 平滑 项 , 由 于 采用 平滑 项 , 所 有 结 点 的 PageRank 值 都 不 会 为 0, 具有 
以 下 性 质 : 


PR(vi) > 0, i=1,2,---,n (21.12) 


> PR(v;) =1 (21.13) 


下 面 给 出 PageRank 的 一 般 定义 。 

定义 21.4 (PageRank 的 一 般 定义 ) ”给 定 一 个 含有 见 个 结 点 的 任意 有 向 图 ， 
在 有 向 图 上 定义 一 个 一 般 的 随机 游 走 模型 ， 即 一 阶 马 尔 可 夫 链 。 一 般 的 随机 游 走 模型 
的 转移 矩阵 由 两 部 分 的 线性 组 合 组 成 ， 一 部 分 是 有 向 图 的 基本 转移 矩阵 M, 表示 从 
一 个 结 点 到 其 连 出 的 所 有 结 点 的 转移 概率 相等 ， 另 一 部 分 是 完全 随机 的 转移 矩阵 ， 表 
示 从 任意 一 个 结 点 到 任意 一 个 结 点 的 转移 概率 都 是 1/n， 线 性 组 合 系数 为 阻尼 因子 
d(0 < d < 1)。 这 个 一 般 随机 游 走 的 马尔 可 夫 链 存在 平稳 分 布 , 记 作 R 定义 平稳 分 布 
向 量 尺 为 这 个 有 向 图 的 一 般 PageRank. R 由 公式 


R=dMR+ 1i (21.14) 


AX, 其 中 1 是 所 有 分 量 为 1 Hn 维 向 量 。 
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任意 一 个 网 页 上 , 浏览 者 或 者 以 概率 d 决定 按照 超 链接 随机 跳 转 , 这 时 以 等 概率 从 连 
接 出 去 的 超 链 接 跳 转 到 下 一 个 网 页 ; 或 者 以 概率 (1 — d) 决定 完全 随机 跳 转 , 这 时 以 


等 概率 1/n 跳 转 到 任意 一 个 网 页 。 第 二 个 机 制 保证 从 没有 连接 出 去 的 超 链接 的 网 页 也 


一 般 PageRank 的 定义 意味 着 互联 网 浏览 者 , 按照 以 下 方法 在 网 上 随机 游 走 : 在 


可 以 跳 转 出 。 这样 可 以 保证 平稳 分 布 , 即 一 般 PageRank 的 存在 , 因而 一 般 PageRank 


适用 


于 任何 结构 的 网 络 。 


21.2 PageRank 的 计算 


PageRank 的 定义 是 构造 性 的 , 即 定义 本 身 就 给 出 了 算法 。 本 节 列 出 PageRank 的 


计算 方法 包括 迭代 算法 、 寡 法 、 代 数 算法 。 常 用 的 方法 是 寡 法 。 


21.2.1 和 迭代 算法 


HEDERA n 个 结 点 的 有 向 图 ,转移 矩阵 为 M,， 有 向 图 的 一 般 PageRank H% 


RAK 


1-d 
Rey =dMR + ——1 (21.15) 


的 极限 向 量 R 确定 。 


PageRank 的 迭代 算法 ， 就 是 按照 这 个 一 般 定 义 进行 迭代 , 直至 收敛 。 
算法 21.1 (PageRank 的 迭代 算法 ) 

输入 : 含有 nn 个 结 点 的 有 向 图 , 转移 矩阵 M, 阻尼 因子 d, 初始 向 量 Ro; 
输出 : 有 向 图 的 PageRank 向 量 R。 
(1) 令 t=0 

(2) 计算 i-d 
Ris1 = dMR, + ——1 

(3) WR Rigs 与 Ri 充分 接近 , 令 R= Rigi, 停止 迭代 。 

(4) 否则 , St=t+1, 执行 步 (2)。 国 
例 21.3 给 定 图 21.4 所 示 的 有 向 图 , 取 d = 0.8, 求 图 的 PageRank。 


解 从 图 21.4 得 知 转移 矩阵 为 


0 1/2 0 a 
1/3 0 0 1/2 
we | 型 / 
1/3 0 1 1/2 
1/3 1/2 0 0 
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0 1/2 
meas 1/3 0 
5 1/3 0 
1/3 1/2 
1/20 
Id, 1/20 
n 1/20 
1/20 
迭代 公式 为 
0 
4/15 
Ri+ı = / 
4/15 
4/15 
令 初始 向 量 


进行 迭代 


0 0 0 2/5 0 
0 12| | 4/15 0 0 
1 1/2 4/15 0 4/5 
0 0 4/15 2/5 0 
2/5 0 0 1/20 
0 0 2/5 1/20 
/ Re+ / 

0 4/5 2/5 1/20 
2/5 0 0 1/20 

1/4 

1/4 
Ro = 

1/4 

1/4 


0 

2/5 

2/5 
0 
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0 2/5 0 0 1/4 1/20 9/60 
ee 4/15 0 0 2/5 || 1/4 | | 1/20 | _ | 13/60 

4/15 0 4/5 2/5 | | 1/4 1/20 25/60 

4/15 2/5 0 0 1/4 1/20 13/60 

0 25 0 0 9/60 1/20 41/300 
ie 4/15 0 0 2/5 | | 13/60 | | | 1/20 | _ | 53/300 

4/15 0 4/5 2/5 | | 25/60 1/20 153/300 

4/15 2/5 0 0 13/60 1/20 53/300 


等 等 。 最 后 得 到 


1/4 9/60 41/300 543/4500 15/148 
1/4 13/60 53/300 707/4500 19/148 
1/4 | | 25/60 |’ | 153/300 | | 2543/4500 |° “| 95/148 
1/4 13/60 53/300 707/4500 19/148 


计算 结果 表明 ， 结 点 C 的 PageRank 值 超过 一 半 ， 其 他 结 点 也 有 相应 的 
PageRank 值 。 a 


21.2.2 A 

FEY (power method) 是 一 个 常用 的 PageRank 计算 方法 , 通过 近似 计算 矩阵 的 
主 特征 值 和 主 特征 向 量 求 得 有 向 图 的 一 般 PageRank. 

首先 介绍 肾 法 。 寡 法 主要 用 于 近似 计算 矩阵 的 主 特征 值 (dominant eigenvalue) 和 
主 特征 向 量 (dominant eigenvector) 。 主 特征 值 是 指 绝对 值 最 大 的 特征 值 ， 主 特征 向 
量 是 其 对 应 的 特征 向 量 。 注意 特征 向 量 不 是 唯一 的 , 只 是 其 方向 是 确定 的 , 乘 上 任意 
系数 还 是 特征 向 量 。 
自 设 要 求 n 阶 和 矩阵 4 的 主 特征 值 和 主 特 征 向 量 , 采用 下 面 的 步骤 。 
首先 , 任 取 一 个 初始 n 维 向 量 zo, 构造 如 下 的 一 个 n 维 向 量 序列 


Zo, TZ1= Azo, 7z2= Ar1, +, Zk= AZk-1 


然后 , 假设 矩阵 A A n 个 特征 值 , 按照 绝对 值 大 小 排列 


[Ail > |A2| > +++ 2 lAn] 
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对 应 的 ”个 线性 无 关 的 特征 向 量 为 
QU2， ,Un 


ÈX n 个 特征 向 量 构成 n 维 空间 的 一 组 基 。 
于 是 , 可 以 将 初始 向 量 zo 表示 为 uy, wu2,… ,un 的 线性 组 合 


To = Q1U1 + a2U2 + + AnUn 
得 到 


@ = Aro = a Au, + agAug t+ anAun 


Zk = AF To = a, A*uy + agA*ug + :+ anA*un 


ay \euy - a2 Msuo He an 和 kaun 


接着 ,假设 矩阵 A 的 主 特征 值 Ai 是 特征 方程 的 单 根 ， 由 上 式 得 


az [À ün FN” 
Tk = À] g + A (2) EEE = (=) w (21.16) 
由 于 lài] > |Aj|> j=2,.… ,nNn, 当 充分 大 时 有 
Zk = a AÏ [ui + ex] (21.17) 


这 里 sk EH k > 00 时 的 无 穷 小 量 , ek 一 0 (k 一 00). B 


Zk 一 a1 和 tu (k 一 oo) (21.18) 


说 明 当 充分 大 时 向 量 zk 与 特征 向 量 wa 只 相差 一 个 系数 。 由 式 (21.18) 知 ， 


Tk © al ka 


总 大 十 1 
Tk+1 © aÀ] Ul 


于 是 主 特征 值 和 1 可 表示 为 


Dy we eth (21.19) 
Tk,j 


其 中 zkj 和 resi 分 别 是 zk 和 zk+l 的 第 7 个 分 量 。 
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在 实际 计算 时 ,为 了 避免 出 现 绝对 值 过 大 或 过 小 的 情况 ,通常 在 每 步 和 迭代 后 即 进 
行规 范 化 , 将 向 量 除 以 其 范 数 ， 即 


Yeti = Art (21.20) 
Yt+1 

Ti = 21.21 

M m Tial idi 


这 里 的 范 数 是 向 量 的 无 穷 范 数 , 即 向 量 各 分 量 的 绝对 值 的 最 大 值 


lzlle = max{|z1|, |z2|,.… ,|znl} 


现在 回 到 计算 一 般 PageRank。 
转移 矩阵 可 以 写作 


R= (au Si t-te) R=AR (21.22) 


其 中 d 是 阻尼 因子 , E 是 所 有 元 素 为 1 的 n 阶 方 阵 。 根 据 Perron-Frobenius #40, 
一 般 PageRank 的 向 量 R 是 矩阵 A 的 主 特征 向 量 , 主 特征 值 是 1. 所 以 可 以 使 用 窜 法 
近似 计算 一 般 PageRank。 

算法 21.2 (计算 一 般 PageRank AF) 

MA: Fin 个 结 点 的 有 向 图 ， 有 向 图 的 转移 矩阵 M, 系数 d, 初始 向 量 xo, 计 
算 精度 €; 

输出 : 有 向 图 的 PageRankR. 

(1) 令 t= 0, 选择 初始 向 量 zo 

(2) 计算 有 向 图 的 一 般 转 移 矩 阵 A 


7 tE 
n 
(3) 迭代 并 规范 化 结果 向 量 
Yr = Axe 
Yt+1 
Ban = 
Tye 


(4) 当 |ziti 一 zil| <e it, $ R= zi, 停止 迭代 。 

(5) 否则 , St=t+1, 执行 步 (3)。 

(6) 对 R 进行 规范 化 处 理 , 使 其 表示 概率 分 布 。 E 
O Perron-Frobenius 定理 的 形式 比较 复杂 ,这 里 不 予 叙述 。 
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例 21.4 给 定 一 个 如 图 21.5 所 示 的 有 向 图 Wad = 0.85， 求 有 向 图 的 一 般 
PageRank. 


Q © 


图 21.5 ”有 向 图 


RE AURA, 按照 算法 21.2, 计算 有 向 图 的 一 般 PageRank. 
由 图 21.5 可 知 转移 矩阵 


OF 
M=] 1/2 0 0 
1/2 1 0 
(1) 令 #=0; 
1 
zo=|1 
1 
(2) 计算 有 向 图 的 一 般 转 移 矩 阵 A 
Anaia in 
n 
o wa a ty 
0.15 
=0.85x | 1/2 0 0/+—3-x]11 1 
1/2 1 0 下 二 证 


0.05 0.05 0.9 
= | 0.475 0.05 0.05 
0.475 0.9 0.05 
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(3) 迭代 并 规范 化 
1 
yı = Axo = | 0.575 
1.425 
1 0.7018 
1 
21 二 1455 0.575 | = | 0.4035 
1.425 i 
0.05 0.05 0.9 0.7018 0.9553 
y2 = Ati = | 0.475 0.05 0.05 0.4035 | = | 0.4035 
0.475 0.9 0.05 1 0.7465 
0.9553 1 
1 
T2 = 0 9553 0.4035 | = | 0.4224 
0.7465 0.7814 
0.05 0.05 0.9 1 0.7744 
% = Az2= | 0.475 0.05 0.05 0.4224 | = | 0.5352 
0.475 0.9 0.05 0.7814 0.8943 
0.7744 0.8659 
1 
T3 = T8943 0.5352 | = | 0.5985 
0.8943 1 
WI HRBAE AI, 得 到 zt, t= 0,1,2,… ,21,22, 的 向 量 序列 
1 0.7018 1, 0.8659 0.9732 L 
1 | | 0.4035 |, | 0.4224], | 0.5985 |], | 0.4912 |, | 0.5516 | ， 
1 1 0.7814 1 1 0.9807 
0.9409 0.9760 0.9755 0.9761 0.9756 0.9758 
0.5405 |, =>; | 0.5408 |, | 0.5404], | 0.5406]. | 0.5406 | | 0.5404 
1 1 1 T 1 1 
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假设 后 面 得 到 的 两 个 向 量 已 满足 计算 精度 要 求 , 那么 取 


0.9756 
R= | 0.5406 
1 


即 得 所 求 的 一 般 PageRank。 如 果 将 一 般 PageRank 作为 一 个 概率 分 布 , 进行 规范 化 ， 
使 各 分 量 之 和 为 1, 那么 相应 的 一 般 PageRank 可 以 写作 


0.3877 
R= | 0.2149 a 
0.3974 


21.2.3 ”代数 算法 


代数 算法 通过 一 般 转 移 矩 阵 的 逆 矩 阵 计算 求 有 向 图 的 一 般 PageRank. 
按照 一 般 PageRank 的 定义 式 (21.14) 


R=dMR+ f1 
n 
于 是 ， 
(I -dM)R = 14 (21.23) 
R=(I- amy ta (21.24) 


这 里 了 是 单位 矩阵 。 当 0 < d < 1 时 , 线性 方程 组 (21.23) 的 解 存 在 且 唯 一 。 这 样 ， 可 
以 通过 求 逆 矩阵 (I 一 dM)! 得 到 有 向 图 的 一 般 PageRank. 


本 章 概 要 


1. PageRank 是 互联 网 网 页 重要 度 的 计算 方法 ,可 以 定义 推广 到 任意 有 向 图 结 点 
的 重要 度 计 算 上 。 其 基本 思想 是 在 有 向 图 上 定义 随机 游 走 模型 ， 即 一 阶 马 尔 可 夫 链 ， 
描述 游 走 者 沿 着 有 向 图 随机 访问 各 个 结 点 的 行为 , 在 一 定 条 件 下 , 极限 情况 访问 每 个 
结 点 的 概率 收敛 到 平稳 分 布 , 这 时 各 个 结 点 的 概率 值 就 是 其 PageRank 值 , 表示 结 点 
相对 重要 度 。 
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2. 有 向 图 上 可 以 定义 随机 游 走 模型 ， 即 一 阶 马 尔 可 夫 链 ， 其 中 结 点 表示 状态 ,， 有 
向 边 表示 状态 之 间 的 转移 ， 假 设 一 个 结 点 到 连接 出 的 所 有 结 点 的 转移 概率 相等 。 转 移 
概率 由 转移 矩阵 M 表示 


M= [miglnxn 
第 ; 行 第 7 列 的 元 素 mj 表示 从 结 点 了 跳 转 到 结 点 i 的 概率 。 


3. SEA n 个 结 点 的 有 向 图 是 强 连 通 且 非 周期 性 的 有 向 图 时 , 在 其 基础 上 定义 
的 随机 游 走 模型 , 即 一 阶 马尔 可 夫 链 具有 平稳 分 布 , 平稳 分 布 向 量 R 称 为 这 个 有 向 图 
的 PageRank. 若 和 矩阵 M 是 马尔 可 夫 链 的 转移 矩阵 ,， 则 向 量 R 满足 


MR=R 
向 量 R 的 各 个 分 量 称 为 各 个 结 点 的 PageRank 值 。 


PR(v1) 


R= Paes) 


PR(vn) 


其 中 PR(v;), i = 1,2,… ,n， 表示 结 点 vi 的 PageRank 值 。 这 是 PageRank 的 基本 
定义 。 

4. PageRank 基本 定义 的 条 件 现实 中 往往 不 能 满足 , 对 其 进行 扩展 得 到 PageRank 
的 一 般 定义 。 任意 含 有 个 结 点 的 有 向 图 上 , 可 以 定义 一 个 随机 游 走 模型 即 一 阶 马 
尔 可 夫 链 , 转移 矩阵 由 两 部 分 的 线性 组 合 组 成 , 其 中 一 部 分 按照 转移 矩阵 M， 从 一 个 
结 点 到 连接 出 的 所 有 结 点 的 转移 概率 相等 , 另 一 部 分 按照 完全 随机 转移 和 矩阵， 从 任 一 
结 点 到 任 一 结 点 的 转移 概率 都 是 1/n。 这 个 马尔 可 夫 链 存在 平稳 分 布 , 平稳 分 布 向 量 
R 称 为 这 个 有 向 图 的 一 般 PageRank, 满足 

i=ä 


R=dMR+—1 
n 


其 中 d(0 < d <1) 是 阻尼 因子 , 1 是 所 有 分 量 为 1 的 nn 维 向 量 。 
5. PageRank 的 计算 方法 包括 迭代 算法 、 寡 法 、 代 数 算法 。 
FL PageRank 的 等 价 式 写 成 


R (aw —*n) g AR 


其 中 d 是 阻尼 因子 , EE 是 所 有 元 素 为 1 的 n 阶 方 阵 。 
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可 以 看 出 R 是 一 般 转 移 矩 阵 A 的 主 特征 向 量 , 即 最 大 的 特征 值 对 应 的 特征 向 量 。 
窜 法 就 是 一 个 计算 矩阵 的 主 特征 值 和 主 特 征 向 量 的 方法 。 
步骤 是 : 选择 初始 向 量 zo; 计算 一 般 转 移 矩 阵 A; 进行 迭代 并 规范 化 向 量 


Yer = Axe 
Yet 
Tt+1 = 
lIye-+1l 


直至 收敛。 


继续 阅读 


PageRank 的 原始 论文 是 文献 [1], 其 详细 介绍 可 见 文献 [2, 3]。 介绍 马 尔 可 夫 过 程 
的 教材 有 [4]. 45 PageRank 同样 著名 的 链接 分 析 算法 还 有 HITS 算法 D, 可 以 发 现 
网 络 中 的 枢纽 与 权威 。PageRank 有 不 少 扩展 与 变形 , 原始 的 PageRank 是 基于 离散 
时 间 马 尔 可 夫 链 的 ，BrowseRank 是 基于 连续 时 间 马 尔 可 夫 链 的 推广 器 , 可 以 更 好 地 
防范 网 页 排名 欺诈 。Personalized PageRank 是 个 性 化 的 PageRank (文献 [7]), Topic 
Sensitive PageRank 是 基于 话题 的 PageRank (文献 [8])，TrustRank 是 防范 网 页 排名 
欺诈 的 PageRank (文献 9] ) 。 


yl 
21.1 假设 方 阵 4 是 随机 矩阵 ， 即 其 每 个 元 素 非 负 , 每 列 元 素 之 和 为 1, 证 明 AF 
仍然 是 随机 和 矩阵， 其 中 大 是 自然 数 。 
21.2 例 21.1 P, 以 不 同 的 初始 分 布 向 量 Ro 进行 迭代 , 仍然 得 到 同样 的 极限 向 
量 R, 即 PageRank. 请 验证 。 
21.3 ”证 明 PageRank 一 般 定义 中 的 马尔 可 夫 链 具有 平稳 分 布 , 即 式 (21.11) 成 立 。 
21.4 证 明 随机 矩阵 的 最 大 特征 值 为 1。 
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第 22 章 无 监督 学 习 方法 总 结 


22.1 无 监督 学 习 方 法 的 关系 和 特点 


第 2 篇 详细 介绍 了 八 种 常用 的 统计 机 器 学 习 方法 , 即 聚 类 方法 (包括 层次 聚 类 与 
k 均值 聚 类 )、 奇 异 值 分 解 (SVD)、 主 成 分 分 析 (PCA)、 潜 在 语义 分 析 (LSA)、 概 率 
潜在 语义 分 析 (PLSA)、 马 尔 可 夫 链 蒙特 卡 罗 法 (MCMC, 包括 Metropolis-Hastings 
算法 和 吉 布 斯 抽样 )、 洪 在 狄 利克 雷 分 配 LDA), PageRank 算法 。 此 外 , 还 简单 介绍 
了 另外 三 种 常用 的 统计 机 器 学 习 方法 , 即 非 负 和 矩阵 分 解 (NMF)、 变 分 推理 、 窜 法 。 这 
些 方法 通常 用 于 无 监督 学 习 的 聚 类 、 降 维 、 话 题 分 析 以 及 图 分 析 。 


22.1.1 各 种 方法 之 间 的 关系 


图 22.1 总 结 一 些 机 器 学 习 方 法 之 间 的 关系 , 包括 第 1 篇 、 第 2 篇 介绍 的 方法 , 分 
别 用 深 灰 色 与 浅 灰 色 表示 。 图 中 上 面 是 无 监督 学 习 方法 ,下面 是 基础 机 器 学 习 方法 。 


图 分 析 


无 监督 学 习 方法 


基础 机 器 学 习 方法 


矩阵 分 解 含有 隐 变 量 的 概率 模型 学 习 ”| 矩阵 特征 值 求 解 


图 22.1 ”机 器 学 习 方法 之 间 的 关系 


无 监督 学 习 用 于 聚 类 、 降 维 、 话 题 分 析 、 图 分 析 。 聚 类 的 方法 有 层次 聚 类 、K 均值 
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聚 类 、 高 斯 混合 模型 ， 降 维 的 方法 有 PCA, 话题 分 析 的 方法 包括 LSA、PLSA、LDA， 
图 分 析 的 方法 有 PageRank。 

基础 方法 不 涉及 具体 的 机 器 学 习 模型 。 基 础 方法 不 仅 可 以 用 于 无 监督 学 习 , 也 可 
以 用 于 监督 学 习 、 半 监督 学 习 。 基 础 方法 分 为 矩阵 分 解 , 矩阵 特征 值 求 解 ,含有 隐 变 
量 的 概率 模型 估计 , 前 两 者 是 线性 代数 问题 , 后 者 是 概率 统计 问题 。 矩阵 分 解 的 方法 
A SVD 和 NMP, 和 矩阵 特征 值 求解 的 方法 有 和 窜 法 , 含有 隐 变 量 的 概率 模型 学 习 的 方法 
有 EM 算法 、 变 分 推理 、 MCMC. 


22.1.2 无 监督 学 习 方法 


聚 类 有 硬 聚 类 和 软 聚 类 ， 层次 聚 类 与 上 均值 聚 类 是 硬 聚 类 方法 。 高 斯 混合 模型 是 
软 聚 类 方法 。 层 次 聚 类 基于 启发 式 算法 , k MERKET, 高 斯 混合 模型 学 
习 通 常 基于 EM 算法 。 

降 维 有 线性 降 维和 非 线 性 降 维 , PCA 是 线性 降 维 方法 。PCA 基于 SVD. 

话题 分 析 兼 有 聚 类 和 降 维特 点 ， 有 非 概 率 模型 、 概 率 模型 。LSA、NME 是 非 概 
率 模型 ， PLSA、LDA 是 概率 模型 。 PLSA 不 假设 模型 具有 先 验 分 布 ,学 习 基 于 极 大 
似 然 估计 ; LDA 假设 模型 具有 先 验 分 布 ,学 习 基 于 贝 叶 斯 学 习 ， 具体 地 后 验 概率 估 
tt. LSA 的 学 习 基 于 SVD, NMF 可 以 直接 用 于 话题 分 析 。PLSA 的 学 习 基于 EM 算 
法 , LDA 的 学 习 基 于 吉 布 斯 抽样 或 变 分 推理 。 

图 分 析 的 一 个 问题 是 链接 分 析 ， 即 结 点 的 重要 度 计算 。PageRank 是 链接 分 析 的 
一 个 方法 。PageRank 通常 基于 寡 法 。 

表 22.1 总 结 了 无 监督 学 习 方法 的 模型 、 策 略 、 算 法 。 


表 22.1 ”无 监督 学 习 方 法 的 特点 
策略 算法 

类 内 样本 距离 最 小 ”| 启发 式 算法 

A 迭代 算法 


方法 
层次 聚 类 
RA k KERK 


高 斯 混合 模型 高 斯 混合 模型 似 然 函数 最 大 EM 算法 
降 维 PCA 低 维 正 交 空间 方差 最 大 SVD 
LSA 矩阵 分 解 模型 平方 损失 最 小 SVD 
话题 分 析 NMF 矩阵 分 解 模型 平方 损失 最 小 非 负 和 矩阵 分 解 
PLSA PLSA 模型 似 然 函数 最 大 EM 算法 
LDA 后 验 概率 估计 吉 布 斯 抽样 ， 变 
图 分 析 PageRank 有 向 图 上 的 马 | 平稳 分 布 求解 守法 


尔 可 夫 链 
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22.1.3 ”基础 机 器 学 习 方法 


和 矩阵 分 解 基于 不 同 假设 : SVD 基于 正 交 假 设 ,， 即 分 解 得 到 的 左右 矩阵 是 正 交 和 托 
阵 , 中 间 算 阵 是 非 负 对 角 和 矩阵 ; 非 负 矩阵 分 解 基于 非 负 假设 , 即 分 解 得 到 的 左右 矩阵 
BEERS REE. 

含有 隐 变 量 的 概率 模型 的 学 习 有 两 种 方法 : 迭代 计算 方法 、 随机 抽样 方法 , EM A 
法 和 变 分 推理 (包括 变 分 EM 算法 ) 属于 迭代 计算 方法 ， 吉 布 斯 抽样 属于 随机 抽样 方 

矩阵 的 特征 值 与 特征 向 量 求解 方法 中 , 究 法 是 常用 的 算法 。 

R 22.2 总 结 了 含 隐 变 量 概率 模型 的 学 习 方法 的 特点 。 


表 22.2 ”含有 隐 变 量 概率 模型 的 学 习 方法 的 特点 


算法 适合 问题 
概率 估计 
概率 近似 估计 

吉 布 斯 抽样 | 随机 抽样 、 后 验 | 依 概 率 收敛 于 全 复杂 模型 
概率 估计 


22.2 ”话题 模型 之 间 的 关系 和 特点 


本 书 介 绍 的 四 种 话题 模型 LSA、NMF、PLSA 和 LDA, 前 两 者 是 非 概率 模型 , 后 


两 者 是 概率 模型 。 下 面 讨论 它们 之 间 的 关系 (细节 可 参考 文献 [1, 2])。 
可 以 从 矩阵 分 解 的 统一 框架 看 LSA、NMF 和 PLSA。 在 这 个 框架 下 , 通过 最 小 化 
一 般 化 Bregman 散 度 进行 有 约束 的 矩阵 分 解 D = UV, 得 到 这 三 个 话题 模型 ; 


min B(D|UV) 


这 里 B(D||UV) 表示 D 和 UV 之 间 的 一 般 化 Bregman HUE (generalized Bregman 
divergence) , 当 且 仅 当 两 者 相等 时 取 值 为 0。 一 般 化 Bregman 散 度 包含 平方 损失 、KL 
散 度 等 。 三 个 话题 模型 拥有 三 种 不 同 的 具体 形式 。 表 22.3 给 出 了 三 个 话题 模型 的 损失 
函数 和 约束 的 公式 , 其 中 PLSA 的 矩阵 D 需要 进行 归 一 化 》) dmn = 1。 


mn 


话题 模型 LSA、NMF 是 非 概 率 模型 , 但 也 有 概率 模型 解释 。 可 以 从 概率 图 模型 
的 统一 框架 看 LSA、NMF、PLSA ll LDA. 在 这 个 框架 下 , 认为 文本 由 概率 模型 生 
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R 22.3 ”和 矩阵 分 解 的 角度 看 话题 模型 


方法。 一般 损 失 函 数 B(DIIUV) SER U WARE EV WARE 
TSA D -ov UU =I VE = 
NMF ID -UVI Umr > 0 tan 2 0 
deo gisi Wrist 
PLSA > dmnlog Van ume > 0 Vin > 0 


成 , 基于 不 同 的 假设 得 到 四 个 不 同 的 话题 模型 。 四 个 话题 模型 有 不 同 的 概率 图 模型 定 
Meo LSA 和 NME, 每 个 文本 dn 由 高 斯 分 布 P (dn|U, un) x exp(—||dn — Uvnl||?) 生成 ， 
其 参数 是 U M vn 共有 N 个 文本 , 如 图 22.2 所 示 。 两 个 话题 模型 有 不 同 的 约束 条 件 ， 
表 22.4 给 出 约束 条 件 的 公式 。 


图 22.2 ”话题 模型 LSA 和 NMF 的 概率 图 模型 表示 


O-A) 


R 22.4 ”话题 模型 LSA 和 NMF 的 约束 条 件 


方法 变量 wk 的 约束 条 件 变量 Un 的 约束 条 件 
LSA 正 交 正 交 
NMF Umk > 0 wkn > 0 
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附录 A 梯度 下 降 法 


梯度 下 降 法 (gradient descent) 或 最 速 下 降 法 (steepest descent) 是 求解 无 约束 
最 优化 问题 的 一 种 最 常用 的 方法 , 具有 实现 简单 的 优点 。 梯度 下 降 法 是 迭代 算法 , 每 
一 步 需要 求解 目标 函数 的 梯度 向 量 。 

假设 f(x) HER” 上 具有 一 阶 连续 偏 导数 的 函数 。 要 求解 的 无 约束 最 优化 问题 是 


min, f(z) (A.1) 


2* 表示 目标 函数 f(z) 的 极 小 点 。 

梯度 下 降 法 是 一 种 迭代 算法 。 选取 适当 的 初 值 z(0), 不 断 迭 代 , 更 新 z 的 值 , 进行 
目标 函数 的 极 小 化 , 直到 收敛 。 由 于 负 梯 度 方向 是 使 函数 值 下 降 最 快 的 方向 ， 在 欠 代 
的 每 一 步 ， 以 负 梯 度 方 向 更 新 x 的 值 ， 从 而 达到 减少 函数 值 的 目的 。 

由 于 f(z) 具有 一 阶 连续 偏 导数 ， 若 第 大 次 迭代 值 为 c, WK f(z) 在 ao 附 
近 进 行 一 阶 泰勒 展开 : 


f(x) = fle) + gk (2 — 2) (A.2) 


这 里 ,gx = g(2) = VF) 为 f(z) 在 z 的 梯度 。 
求 出 第 万 十 1 ACE oD, 


2D) — 2) 十 XRD (A.3) 


其 中 , p 是 搜索 方向 , 取 负 梯度 方向 pk = —Vf (2), A 是 步 长 ,由 一 维 搜索 确定 ， 
即 和 x 使 得 


f(e + Arpr) = min fe + Ape) (A.4) 


梯度 下 降 法 算法 如 下 : 

算法 A.1 (梯度 下 降 法 ) 

输入 : 目标 函数 f(a), 梯度 函数 g(x) = Vf(z), 计算 精度 <; 
输出 : f(x) 的 极 小 点 2 
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(1) 取 初 始 值 rz) e R”, 置 k = 0。 

(2) 计算 f(x). 

(3) 计算 梯度 gx = g(a), 当 lgnl| < e 时 , 停止 迭代 , Sat = 2; 否则 , + 
pr = —g(a)), SK Ax, 1E 

f(x + Apk) = min f(a + Apr) 

(4) 置 ztD = 2 + Arpe 计算 f(a) 
当 |[F(eD) — f(| < e R |rt — 2]! < e 时 , FERR ot = 
z+), 

(5) 否则 , Bk=k+1, 转 (3)。 a 

当 目 标 函 数 是 凸 函数 时 , 梯度 下 降 法 的 解 是 全 局 最 优 解 。 一般 情况 下 ， 其 解 不 保 
证 是 全 局 最 优 解 。 梯 度 下 降 法 的 收敛 速度 也 未 必 是 很 快 的 。 


附录 B ”牛顿 法 和 拟 牛 顿 法 


牛顿 法 (Newton method) 和 拟 牛 顿 法 (quasi-Newton method) 也 是 求解 无 约束 
最 优化 问题 的 常用 方法 ， 有 收敛 速度 快 的 优点 。 牛 顿 法 是 迭代 算法 , 每 一 步 需 要 求解 
目标 函数 的 黑 塞 矩 阵 的 逆 和 矩阵 ， 计 算 比 较 复杂 。 拟 牛顿 法 通过 正定 矩阵 近似 黑 塞 矩 阵 
的 道 矩 阵 或 黑 塞 矩 阵 ， 简 化 了 这 一 计算 过 程 。 

1. 牛顿 法 

考虑 无 约束 最 优化 问题 

my (B.D) 

其 中 zx* 为 目标 函数 的 极 小 点 。 

假设 f(z) 具有 二 阶 连续 偏 导数 , AEB k 次 迭代 值 为 z*), 则 可 将 f(z) E 附 
近 进 行 二 阶 泰勒 展开 : 


f(a) = f(a) + gfe - 2) + 5@-2)TH@M)\2-2) (B2) 


这 里 , gk = g(a) = Vf) 是 f(x) 的 梯度 向 量 在 点 z*) 的 值 , H) 是 f(z) 
WEEE (Hessian matrix) 


H(z) = Ea (B.3) 


0x,0x; 


在 点 co 的 值 。 函 数 f(z) 有 极 值 的 必要 条 件 是 在 极 值 点 处 一 阶 导数 为 0, 即 梯度 向 量 
为 0。 特 别 是 当 互 (z(5) 是 正定 矩阵 时 ,函数 f(z) 的 极 值 为 极 小 值 。 


牛顿 法 利用 极 小 点 的 必要 条 件 


Vv/(z) =0 (BY 


每 次 迭代 中 从 点 c® 开始 , 求 目标 函数 的 极 小 点 ， 作 为 第 大 十 1 次 欠 代 值 cD, R 
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体 地 , 假设 zw+D 满足 : 
WO 


由 式 (B.2) 有 
Vi (a) = gk + Hk (x — 2) 


其 中 Hy = H(a). 这 样 , 式 (B.5) 成 为 


gk + Hy (at) — 2) =0 


ht) = lh) Hz ge 
或 者 
zk+D = zh) + py 
其 中 


Hkpk = —9k 
用 式 (B.8) 作为 迭代 公式 的 算法 就 是 牛顿 法 。 
算法 B.1 (牛顿 法 ) 


(B.5) 


(B.6) 


(B.7) 


(B.8) 


(B.9) 


(B.10) 


输入 : 目标 函数 f(x), 梯度 g(x) = Vf (ax), BEEE A(x), 精度 要 求 c; 


输出 : f(a) 的 极 小 点 z*。 

(1) 取 初始 点 cO, Hk = 0。 

(2) 计算 gs = g(z(*))。 

(3) Ë ligal < e， 则 停止 计算 , 得 近似 解 z* = oc, 
(4) 计算 Hy, = H(a™), HK pr 


Hipk = -9k 


(5) Bact) = 7) + ppo 
(6) #k=k+1, 转 (2)。 


步骤 (4) 求 pk, pe=—Hy gn, BR Hi!, 计算 比较 复杂 , 所 以 有 其 他 改进 的 方法 。 


2. 拟 牛 顿 法 的 思 


在 牛顿 法 的 迭代 中 ,需要 计算 黑 塞 矩 阵 的 逆 矩 阵 五 -:， 这 一 计算 比较 复杂 , 考虑 


用 一 个 n 阶 和 矩阵 Gi = G(x) 来 近似 代替 A? = 五 -1(z(9)。 这 就 是 拟 牛 顿 法 的 基 


本 想法 。 


先 看 牛顿 法 迭代 中 黑 塞 矩 阵 Ay, 满足 的 条 件 。 首先 , Hi 满足 以 下 关系 。 在 式 (B.6) 
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HH z= zk+l)， 即 得 


gkH — gk = Hy(x*) — 2) B.11) 


W Yk = 9k+1 — Ger Ôk = TETY — gC), My 
yk = Axor B.12) 


或 


Hy Yk = ôk B.13) 


sk (B.12) 或 式 (B.13) 称 为 拟 牛顿 条 件 。 
WR Ay, 是 正定 的 (Hi! 也 是 正定 的 ), 那么 可 以 保证 牛顿 法 搜索 方向 pk 是 下 降 
方向 。 这 是 因为 搜索 方向 是 pi = 一 Ha!1gk， 由 式 (B.8) 有 


z= + Apr = 7 — AHE gr (B.14) 
所 以 f(a) eo 的 泰勒 展开 式 (B.2) 可 以 近似 写成 : 
F(x) = fe) — og Hg gk (B.15) 


因 Hi! 正定 , WA of Hy gn > 0。 当 入 为 一 个 充分 小 的 正 数 时 , 总 有 f(z) < f(a), 
也 就 是 说 pk 是 下 降 方向 。 

拟 牛 顿 法 将 Gk 作为 HE! 的 近似 ,要 求 矩 阵 Ge 满足 同样 的 条 件 。 首 先 ， 每 次 迭 
{REM Gy 是 正定 的 。 同 时 ，Gx 满足 下 面 的 拟 牛 顿 条 件 : 


Gk+1Yk = Ôk (B.16) 


按照 拟 牛 顿 条 件 选择 Gi 作为 Hi! 的 近似 或 选择 Be 作为 Ay 的 近似 的 算法 称 为 
拟 牛 顿 法 。 
按照 拟 牛 顿 条 件 , 在 每 次 迭代 中 可 以 选择 更 新 矩阵 Get: 


ChHI 三 CE 十 AGK (B.17) 


这 种 选择 有 一 定 的 灵活 性 , 因此 有 多 种 具体 实现 方法 。 下 面 介绍 Broyden 类 拟 牛 顿 法 。 
3. DFP (Davidon-Fletcher-Powell) 算法 (DFP algorithm) 
DFP 算法 选择 Gri 的 方法 是 , 假设 每 一 步 迭 代 中 矩阵 Gey 是 由 Gk 加 上 两 个 
附加 项 构成 的 ， 即 


Gk = Gr + Pk + Qk (B.18) 
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其 中 Pe Qr 是 待定 矩阵 。 这 时 ， 
Gk+1Yk = GkYk + PkYyk + QkYk 
为 使 Gk+l 满足 拟 牛顿 条 件 , 可 使 及 和 Qr 满足 : 
Pryk = ok 
QkYk = —GkYk 


事实 上 , 不 难 找 出 这 样 的 Py 和 Qk, 例如 取 


_ Oe 


OL Yk 


Pk 


_ Gaycye Gr 
a= YE GkYk 
这 样 就 可 得 到 矩阵 Giga 的 迭代 公式 : 


为 GEYEYE Gk 
OYyk UE GYR 


称 为 DFP 算法 。 


(B.19) 


(B.20) 
(B.21) 


(B.22) 


(B.23) 


(B.24) 


可 以 证 明 , 如 果 初 始 矩阵 Go 是 正定 的 , WUE CED REM Gi 都 是 正定 的 。 


DFP 算法 如 下 : 

算法 B.2 (DFP 算法 ) 

输入 : 目标 函数 f(x), 梯度 g(x) = V(x), 精度 要 求 s; 
输出 : f(x) 的 极 小 点 z*。 

(1) 选 定 初始 点 O, W Go WIE MMM, Hk = 0。 


(2) 计算 gs = g(t). Flg <e 则 停止 计算 , 得 近似 解 z* = 0; 否则 转 (3)。 


(3) $ pk = 一 CK9K。 
(4) 一 维 搜索 : R Ar 使 得 


f(a + Akpk) = min f(o™ + Apr) 


(5) Bt) = ol) + Akpko 


(6) 计算 gepa = g(x +D), $ geyll < s， 则 停止 计算 ， 得 近似 解 z* = et), 


否则 , 按 式 (B.24) 算出 Gk+i。 
(7) Bk=k+1, # (3). 
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4. BFGS (Broyden-Fletcher-Goldfarb-Shanno) 算法 (BFGS algorithm) 

BFGS 算法 是 最 流行 的 拟 牛 顿 算法 。 

可 以 考虑 用 Gx 逼近 黑 塞 矩 阵 的 逆 矩 阵 AO), 也 可 以 考虑 用 Bi EREE H. 
这 时 , 相应 的 拟 牛 顿 条 件 是 


Brion = Yk B.25) 
可 以 用 同样 的 方法 得 到 男 一 迭代 公式 。 首 先 令 
Bry = Bk + Pe + Qk B.26) 
Brkti6k = Bron + Pron + QkOk B.27) 
考虑 使 PB 和 Qr 满足 : 
Pbk = Yk B.28) 
Qkôk = —Bkok B.29) 


找 出 适合 条 件 的 PB 和 Qr 得 到 BFGS 算法 矩阵 Bk+1 的 迭代 公式 : 


为 E BrOkOR Br (B.30) 


Bk+l = B 
k+1 k+ PTA Bro 


可 以 证 明 , 如 果 初 始 和 矩阵 Bo 是 正定 的 , 则 迭代 过 程 中 的 每 个 矩阵 Bi 都 是 正定 的 。 
下 面 写 出 BFGS 拟 牛 顿 算法 。 

算法 B.3 (BFGS 算法 ) 

输入 : 目标 函数 f(x), g(x) = Vf(z), 精度 要 求 es; 

输出 : f(z) 的 极 小 点 z*。 

C1) 选 定 初始 点 O, W Bo ATE MAEM, Hk = 0。 

(2) 计算 gs==g(z 扑 )。 若 ||gkl|<e, 则 停止 计算 , 得 近似 解 z* = 0), 否则 转 (3)。 
(3) 由 Bkpk = 一 9k RH pko 

(4) 一 维 搜索 : OR Ar 使 得 


f(e + Arpr) = min fe + Ape) 


(5) 置 c&+)) = rC) 十 AkDk。 

(6) 计算 gepi = g(x +D), 车 |gk+1l| < e， 则 停止 计算 , 得 近似 解 z* = (ht), 
否则 , 按 式 (B.30) 算出 Besse 

(7) Bk=k+1, 转 (3)。 国 
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5. Broyden 类 算法 (Broyden?”s algorithm) 

我 们 可 以 从 BFGS 算法 矩阵 By 的 迭代 公式 (B.30) 得 到 BFGS 算法 关于 Gr 
的 迭代 公式 。 事 实 上 , Hid Gk = Bo’. Gr = Bel 那么 对 式 (B.30) 两 次 应 用 
Sherman-Morrison 公式 中 即 得 


工 
STA Skyr OA 
G I Gy {I t B.31 
ies ( dye) OR Yk Ok Yk Be 


称 为 BFGS 算法 关于 Gr 的 迭代 公式 。 

1 DFP 算法 Gr 的 迭代 公式 (B.23) 得 到 的 Gaur WE GPFP, 由 BFGS 算法 Gk 
WERA (B.31) 得 到 的 Gri 记 作 GBFGS, 它们 都 满足 方程 拟 牛 顿 条 件 式 , 所 以 它 
们 的 线性 组 合 


Gai = aGPFP + (1 — a)GBFGS (B.32) 


也 满足 拟 牛 顿 条 件 式 , 而 且 是 正定 的 。 其 中 0 < a < 1。 这样 就 得 到 了 一 类 拟 牛顿 法 ， 
称 为 Broyden 类 算法 。 


@ Sherman-Morrison 公式 : 假设 4 Æ n BAW, u,v en 维 向 量 , 且 Atul 也 是 可 逆 矩 
Be, 则 
4-luvT4-1 


Tha =] 
sATA M 
(Ape) 1+vTA-lu 


附录 C 拉 格 朗 日 对 偶 性 


在 约束 最 优化 问题 中 ,常常 利用 拉 格 衣 日 对 偶 性 (Lagrange duality) 将 原始 问题 
转换 为 对 偶 问 题 ， 通 过 解 对 偶 问题 而 得 到 原始 问题 的 解 。 该 方法 应 用 在 许多 统计 学 习 
方法 中 , 例如 ,最 大 烂 模型 与 支持 向 量 机 。 这 里 简要 叙 述 拉 格 朗 日 对 侦 性 的 主要 概念 
和 结果 。 


1. 原始 问题 


假设 f(a), alz), hj(z) 是 定义 在 R* 上 的 连续 可 微 函数 。 考虑 约束 最 优化 问题 


min f(z) (C.1) 
s.t. o(@)<0, = lo (C.2) 
hj(z)=0, j=1,2, ,1 (C.3) 


称 此 约束 最 优化 问题 为 原始 最 优化 问题 或 原始 问题 。 


首先 , 引进 广义 拉 格 朗 日 函数 (generalized Lagrange function) 


k l 
L(z,a, p) = f(x) + $ aicil) + DBihs(z) (C4) 


这 里 , x = (cM, 2@,..- 2eM)T € R”, ai B; 是 拉 格 朗 日 乘 子 ，ai > 0。 考虑 z 的 
函数 : 


Op(z) = max L(z,a,ß) (C.5) 


@,B:0420 


这 里 , 下 标 P 表示 原始 问题 。 
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假设 给 定 某 个 co 如果 z 违反 原始 问题 的 约束 条 件 , 即 存在 某 个 i 使 得 ci(z) > 0 
或 者 存在 某 个 j 使 得 hj(z) 40, 那么 就 有 


6p(x) = | max | + Yo x) 4 Bihj(z)| = +00 (C.6) 


j=l 


HERA i 使 约束 ci(z) > 0, WIS a; 一 +00, ERA j 使 hj(z) #0, WHS b; 
使 Bjhj(z) — +00, 而 将 其 余 各 Qis B; 均 取 为 0。 


相反 地 ， 如 果 z 满足 约束 条 件 式 (C.2) 和 式 (C.3), 则 由 式 (C.5) 和 式 (C.4) 可 
Kl, Op(x) = f(z)。 因 此 ， 


满 问题 约 
bp- f(x), z 满足 原始 问题 约束 (a7) 
十 oo， 其 他 
所 以 如 果 考 虑 极 小 化 问题 
min @p(z) = min, max L(x,0,6) (C.8) 


它 是 与 原始 最 优化 问题 (C.1)~(C.3) 等 价 的 即 它们 有 相同 的 解 。 问 题 
min max L(2,a, p) 称 为 广义 拉 格 朗 日 函数 的 极 小 极 大 问题 。 这 样 一 来 ， 就 把 
原始 最 优化 问题 表示 为 广义 拉 格 朗 日 函数 的 极 小 极 大 问题 。 为 了 方便 ， 定 义 原 始 问题 
的 最 优 值 


p= min p(z) (C.9) 
称 为 原始 问题 的 值 。 
2. 对 偶 问题 
定义 
gp(a, B) = min L(x, a, p) (C.10) 


再 考虑 极 大 化 gp(a, B) = min L(x, a, 8), 即 


aogp(o B)= ane pminL(, a, B) (C.11) 


问题 max min L(x, a, 6) 称 为 广义 拉 格 朗 日 函数 的 极 大 极 小 问题 。 
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可 以 将 广义 拉 格 朗 日 函数 的 极 大 极 小 问题 表示 为 约束 最 优化 问题 : 
max 6p(a,8) = maxmin L(x, a,P) (C.12) 
st. a, 20, t=1,2,---,k (C.13) 
称 为 原始 问题 的 对 偶 问 题 。 定 义 对 偶 问 题 的 最 优 值 


d= max lolap) (C.14) 


称 为 对 偶 问题 的 值 。 
3. 原始 问题 和 对 偶 问题 的 关系 
下 面 讨论 原始 问题 和 对 偶 问 题 的 关系 。 
定理 C.1 若 原 始 问题 和 对 偶 问题 都 有 最 优 值 ， 则 


d*= max min L(x, a,B)< min a Peso L(x, a, 3) = (C.15) 


a,B:a;, 20 


证 明 由 式 (C.12) 和 式 (C.5), 对 任意 的 w,8 和 z, 有 


Op(a, B) = min L(x, a, 8) < L(x,a,B) < max L(x, a, p) = 0p(7) (C.16) 


即 
gp(a,D) 和 gp(z) (C.17) 


由 于 原始 问题 和 对 偶 问 题 均 有 最 优 值 ， 所 以 ， 


a Bax, 9D(0, B)< min bp(7) (C.18) 
即 
d = max min L(x, a,B)< min a Peo L(z, a, 3) = (C.19) 


È 
推论 C.1 Harpa, B* 分别 是 原始 问题 (C.1)~(C.3) 和 对 偶 问 题 (C.12)~(C.13) 
的 可 行 解 ， 并 且 d* =Dr*， 则 Zr* 和 a*,[B* 分 别 是 原始 问题 和 对 偶 问题 的 最 优 解 。 
在 某 些 条件 下 , 原始 问题 和 对 偶 问题 的 最 优 值 相等 , d = p*。 这 时 可 以 用 解 对 偶 
问题 蔡 代 解 原始 问题 。 下 面 以 定理 的 形式 叙述 有 关 的 重要 结论 而 不 予 证 明 。 
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定理 C.2 考虑 原始 问题 (C.1)~(C.3) 和 对 偶 问题 (C.12)~(C.13)。 假 设 函 数 
f(x) 和 ci(z) ROAX, hy(x) 是 仿 射 函数 ; 并 且 假设 不 等 式 约束 cle) 是 严格 可 行 的 ， 
即 存在 z， 对 所 有 i 有 ci(z) <0, 则 存在 Zz*,a*,B*, 使 z* 是 原始 问题 的 解 ，a*,[B* 是 
对 偶 问题 的 解 ， 并 且 

p* = d = L(z*,a*, 6") (C.20) 


定理 C.3 对 原始 问题 (C.1)~(C.3) 和 对 偶 问题 (C.12)~(C.13), 假设 函数 f(z) 
和 ci(z) ALAA, hile) 是 仿 射 函数 ， 并 且 不 等 式 约束 ale) 是 严格 可 行 的 ， 则 2* 
和 at, BY 分 别 是 原始 问题 和 对 偶 问题 的 解 的 充分 必要 条 件 是 2*,a*,B* 满足 下 面 的 
Karush-Kuhn-Tucker (KKT) 条 件 : 


VzL(2*,a*, B*) =0 (C.21) 
afe(2*)=0, +=1,2,---,k (C.22) 
àl EO €=1;2;---5k (C.23) 
af >0, i=1,2,...,k (C.24) 
B=0 3=L%.. (C.25) 


特别 指出 , 式 (C.22) 称 为 KKT 的 对 偶 互补 条 件 。 由 此 条 件 可 知 : 若 a? > 0, W 
ci(2*) = 0. 


附录 D ”和 矩阵 的 基本 子 空间 


简要 介绍 本 书 用 到 的 矩阵 的 基本 子 空间 相关 的 定义 和 定理 。 
1. 向 量 空间 的 子 空间 
E 9 是 向 量 空 间 V 的 非 空子 集 , AS 满足 以 下 条 件 : 
(1) 对 任意 实数 a, Hare 5, Mares; 
(2) 若 reES 有 HyesS, 则 z+ye5; 
则 5 称 为 V 的 子 空间 。 
设 v1,v2,… ,vn 为 向 量 空 间 V 中 的 向 量 , 则 其 线性 组 合 


Q1V1 十 Q2V2 + +--+ QnVn 


构成 V 的 子 空间 ， 称 为 ,v2,… ,vn 张 成 (span) 的 子 空间 , BÈ vv ,vn 的 张 
成 , 记 作 


span(vi, V2,.** , Vn) 


如 果 span{v1,v2,… ,vn} =V, 就 说 v1,v2,… ,vn IKR Vo 

2. 向 量 空间 的 基 和 维 数 

向 量 空间 V 中 的 向 量 v1,v2,… ,vn 称 为 空间 Y 的 基 , 如 果 满 足 条 件 

A) v1,v2,… ,vn 线性 无 关 ; 

(2) 01,v2,… ,vn TKR Vo 
反之 亦 然 。 向 量 空间 的 基 的 个 数 即 向 量 空间 的 维 数 。 

3. 矩阵 的 行 空间 和 列 空间 

设 4 为 一 m x n FM. A 的 每 一 行 可 以 看 作 是 R” 中 的 一 个 向 量 , 称 为 4 的 行 
HE. RA, A 的 每 一 列 可 以 看 作 是 R™ 中 的 一 个 向 量 , 称 为 4 的 列 向 量 。 

RAX mxn FEM, 则 由 A 的 行 向 量 张 成 的 Rm 的 子 空间 , KA A 的 行 空 间 ; 
由 4 的 列 向 量 张 成 的 Rm 的 子 空间 , 称 为 4 的 列 空 间 。 

HERE A 的 行 空间 的 维 数 等 于 列 空 间 的 维 数 。 
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一 个 矩阵 的 行 空间 的 维 数 等 价 地 列 空间 的 维 数 ) 称 为 矩阵 的 秩 。 
4. 矩阵 的 零 空 间 


Be A 为 m xn HERE, & N(A) 为 齐 次 方程 组 Ar = 0 的 所 有 解 的 集合 , W N(A) 
AR” 的 一 个 子 空间 , KA A 的 零 空间 ull space) ， 即 


N(A) = {x € R"|Az = 0} (D.1) 


一 个 矩阵 的 零 空 间 的 维 数 称 为 矩阵 的 零度 。 

秩 -零度 定理 。 设 4 为 一 m x n EE, 则 4 的 秩 与 4 的 零度 之 和 为 n。 事实 
E, 若 4 的 秩 为 >， 则 方程 组 Ar = 0 的 独立 变量 的 个 数 为 >， 自由 变量 的 个 数 为 
(n—r)o N(A) 的 维 数 等 于 自由 变量 的 个 数 。 所 以 定理 成 立 。 

5. 子 空间 的 正 交 补 

BX MY AR” 的 子 空间 , 若 对 每 一 zeEX Aly ce Y 都 满足 zTy =0, WX 
ALY 是 正 交 的 , 记 作 XLY。 


SY AR” 的 子 空间 ,，R" 中 与 Y 中 的 每 一 向 量 正 交 的 向 量 集合 记 作 Y+, 即 


Y+ = {x € R”|zTy =0,Vy € Y} (D.2) 


集合 Y+ 称 为 了 的 正 交 补 。 

可 以 证 明 , AY 是 R” 的 子 空间 , 则 Y+ 也 是 R” 的 子 空间 。 

6. 矩阵 的 基本 椰 空间 

设 4 为 一 m x n 和 矩阵, 可 以 将 A 看 成 是 将 有 ”映射 到 R 的 线性 变换 。 一 个 向 
量 zeRm 在 4 的 列 空间 的 充 要 条 件 是 存在 ze R", 使 得 z = Ar. 这 样 4 的 列 空间 
Al A 的 值 域 是 相同 的 。 记 A 的 值 域 为 R(A), 则 


R(A) = {z € R”| 3r € R",z= Az} 
= A 的 列 空间 (D.3) 


类 似 地 , 一 个 向 量 y E R”, 红 在 4 的 行 空间 的 充 要 条 件 是 存在 ER”, 使 得 
y = 4Tz。 这 样 4 的 行 空间 和 AT 的 值 域 R(AT) 是 相同 的 。 


R(A*) = {y € R"| 3x € R”,y = Ata} 
= A 的 行 空 间 (D.4) 
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FEM A 有 四 个 基本 子 空 间 : 列 空间 、 行 空间 、 零 空间 、4 的 转 置 零 空间 AFE 
间 )。 有 下 面 的 定理 成 立 。 

定理 D.1 #AA—mxn EF, I] N(A) = R(AT)+, 且 N(AT) = R(A)*. 

证 明 ”容易 验证 R(AT)LN(A). FF R(AT)LN(A), 故 得 N(4) c R(AT)+. 5 
一 方面 , 若 z 为 R(AT)+ 中 的 任何 向 量 , 则 z AAT 的 每 一 个 列 向 量 正 交 。 因此, 可 
得 Ac = 0。 于 是 xz 必 为 W(4) 的 元 素 , 由 此 得 到 


N(A) = R(AT)+ (D.5) 
类 似 可 得 
N(AT) = R(A)* (D.6) 
图 D.1 示意 矩阵 的 基本 子 空 间 之 间 的 关系 。 L 
mXn 和 矩阵 4 
R" 的 子 空间 R”" 的 子 空间 
FIÈRA 列 空间 R(4) 
ZRNA) 
维 数 nr 左 零 空间 N(47) 
维 数 mr 
图 D.1 和 矩阵 的 基本 子 空间 之 间 的 关系 


附录 E KL 散 度 的 定义 和 狄 利克 雷 分 布 的 性 质 


1. KL 散 度 的 定义 

首先 给 出 KL 散 度 (KL divergence, Kullback-Leibler divergence) 的 定义 。KL 
散 度 是 描述 两 个 概率 分 布 Q(x) 和 P(x) 相似 度 的 一 种 度量 , 记 作 D(Q|IP)。 对 离散 随 
机 变量 ，KL 散 度 定义 为 


DQIP) = 5 Qt) 10g Z E1) 
对 连续 随机 变量 ,KL 散 度 定义 为 
DQIP) = f olo) 10g Pas E2) 


容易 证 明 KL 散 度 具有 性 质 : D(QIP) > 0。 当 且 仅 当 Q = P 时 , D(Q||P) = 0. 
事实 上 , 利用 Jensen 不 等 式 即 得 


-zolIm= f Qla) og ae 


Pa 
Qla)? 


= tog | Ptajdr =0 (E.3) 


< log Q(z) 


KL 散 度 是 非 对 称 的 , 也 不 满足 三 角 不 等 式 , 不 是 严格 意义 上 的 距离 度量 。 
2. 狄 利克 雷 分 布 的 性 质 
设 随机 变量 9 服从 狄 利克 雷 分 布 9 ~ Dir(gla)， 利 用 指数 分 布 族 性 质 ， 求 函数 
log 6 的 关于 狄 利克 雷 分 布 的 数学 期 望 E [log 0]. 
指数 分 布 族 是 指 概率 分 布 密度 可 以 写成 如 下 形式 的 概率 分 布 集合 : 
P(zIn) = h(x) exp{n* T(z) — A(n)} (E.4) 


Hn 是 自然 参数 , T(z) 是 充分 统计 量 , h(z) 是 潜在 测度 ，4(7) 是 对 数 规范 化 因子 
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A(n) = tog /memtorrlojdr。 
指数 分 布 族 具 有 性 质 : 对 数 规范 化 因子 Aln) 对 自然 参数 7 的 导数 等 于 充分 统计 
E T(z) 的 数学 期 望 。 事 实 上 ， 
d 


ŽA) = $ iog /oemtorrlajdz 


[ro exp{n' T(x) }h(x)da 


[roito 
= f Tejen" TE) - 40Djntojdz 
= f rolelmdz 
= E[T(X)] (E.5) 
狄 利克 雷 分 布 属于 指数 分 布 族 ， 因为 其 密度 函数 可 以 写成 指数 分 布 族 的 密度 函数 


形式 


rn) x 


p(gla) = T an II or 
[r 一 
k=1 


K K K 
= on (>e — 1) log a) 十 log 工 (>: a) 一 2 ee rao} (E.6) 


k=1 l=1 


自然 参数 是 me = ak 一 1， 充 分 统计 量 是 T(9k) = log 9k， 对 数 规范 化 因子 是 


4(a) = 5 logT(ax) — logT (> a) ; 
k=1 l=1 


利用 性 质 (E.5), 对 数 规范 化 因子 对 自然 参数 的 导数 等 于 充分 统计 量 的 数学 期 望 ， 
得 到 狄 利克 雷 分 布 的 数学 期 望 Epoa) [log 9] 的 计算 式 


K K 
d d 
Ey(olo) [logOk] = Ta, 40) = 区 logT(ak) — logT (>: a )| 


-vo - (Soar), k=1,2,---,K (E.7) 


IEF Y 是 digamma MAL, 即 对 数 伽 马 函数 的 一 阶 导 数 。 
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建议 分 布 (proposal distribution) , 352, 
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拉 普 拉 斯 平滑 (Laplace smoothing) , 64 
类 标记 (class label) , 50, 59 

类 别 〈class) , 28 


索引 


461 
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团 分 点 (splitting point) , 81 
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JJH% (weakly learnable) , 155 
S 

散布 矩阵 (scatter matrix) , 259 
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AEH (conditional entropy) , 73 
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统计 模拟 方法 (statistical simulation 
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